TempoTokensダウンロード - TempoTokensソースコードのダウンロード

TempoTokens

AI ソースコード

1.0.0

ダウンロード

テキストからビデオへのモデル適応による、多様で調整されたオーディオからビデオへの生成

このリポジトリには、Text-to-Video モデル適応による多様で整列された Audio-to-Video 生成の公式 PyTorch 実装が含まれています

オーディオからビデオへ.mp4

抽象的な

私たちは、さまざまなセマンティッククラスからの自然なオーディオサンプルに基づいて、多様でリアルなビデオを生成するタスクを検討します。このタスクでは、ビデオが入力オーディオとグローバルかつ時間的に位置合わせされる必要があります。グローバルには、入力オーディオは出力ビデオ全体と意味的に関連付けられ、時間的には、入力オーディオの各セグメントが出力ビデオの対応するセグメントに関連付けられます。そのビデオ。既存のテキスト条件付きビデオ生成モデルと事前トレーニングされたオーディオエンコーダーモデルを利用します。提案された方法は、軽量アダプターネットワークに基づいており、オーディオベースの表現を、テキストからビデオへの生成モデルで予期される入力表現にマッピングすることを学習します。そのため、テキスト、オーディオ、そして私たちが確認できる限り初めて、テキストとオーディオの両方を条件としたビデオ生成も可能になります。私たちは、オーディオビデオサンプルの重要な意味的多様性を実証する 3 つのデータセットでこの方法を広範囲に検証し、さらに、生成されたビデオと入力オーディオサンプルの整合性を評価するための新しい評価指標 (AV-Align) を提案します。 AV-Align は、両方のモダリティにおけるエネルギーピークの検出と比較に基づいています。最近の最先端のアプローチと比較して、私たちの方法は、内容と時間軸の両方に関して、入力音声とよりよく一致するビデオを生成します。また、私たちの方法で作成されたビデオがより高い視覚的品質を示し、より多様であることも示します。

インストール

git clone [email protected]:guyyariv/TempoTokens.git
cd TempoTokens
pip install -r requirements.txt

そして、次のように Accelerate 環境を初期化します。

accelerate config

BEATs 事前トレーニング済みモデルをダウンロード

mkdir -p models/BEATs/ && wget -P models/BEATs/ -O "models/BEATs/BEATs_iter3_plus_AS2M_finetuned_on_AS2M_cpt2.pt" "https://valle.blob.core.windows.net/share/BEATs/BEATs_iter3_plus_AS2M_finetuned_on_AS2M_cpt2.pt?sv=2020-08-04&st=2023-03-01T07%3A51%3A05Z&se=2033-03-02T07%3A51%3A00Z&sr=c&sp=rl&sig=QJXmSJG9DbMKf48UDIU1MfzIro8HQOf3sqlNXiflY1I%3D"

トレーニング

VGGSound、Landscape、AudioSet-Drum など、トレーニングした各データセットに対して関連するコマンドを実行します。

accelerate launch train.py --config configs/v2/vggsound.yaml

accelerate launch train.py --config configs/v2/landscape.yaml

accelerate launch train.py --config configs/v2/audioset_drum.yaml

構成ファイルを確認し、好みに応じてパラメータをカスタマイズすることを強くお勧めします。

事前にトレーニングされた重み

次のリンクにアクセスして、トレーニングを行った 3 つのデータセットの事前トレーニングされた重みを取得します。 https://drive.google.com/drive/folders/10pRWoq0m5torvMXILmIQd7j9fLPEeHtS フォルダーを「models/」という名前のディレクトリに保存することをお勧めします。」

推論

inference.pyスクリプトは、トレーニングされたチェックポイントを使用してビデオを生成する目的を果たします。提供されたコマンドを使用してモデルのトレーニングを完了すると (または事前トレーニングされたモデルを選択すると)、VGGSound、Landscape、AudioSet-Drum などのトレーニングに利用したデータセットからビデオを簡単に作成できます。

accelerate launch inference.py --mapper_weights models/vggsound/learned_embeds.pth --testset vggsound

accelerate launch inference.py --mapper_weights models/landscape/learned_embeds.pth --testset landscape

accelerate launch inference.py --mapper_weights models/audioset_drum/learned_embeds.pth --testset audioset_drum

さらに、以下に示すように、独自のオーディオからビデオを生成する機能もあります。

accelerate launch inference.py --mapper_weights models/vggsound/learned_embeds.pth --audio_path /audio/path

> python inference.py --help

usage: inference.py [-h] -m MODEL -p PROMPT [-n NEGATIVE_PROMPT] [-o OUTPUT_DIR]
                    [-B BATCH_SIZE] [-W WIDTH] [-H HEIGHT] [-T NUM_FRAMES]
                    [-WS WINDOW_SIZE] [-VB VAE_BATCH_SIZE] [-s NUM_STEPS]
                    [-g GUIDANCE_SCALE] [-i INIT_VIDEO] [-iw INIT_WEIGHT] [-f FPS]
                    [-d DEVICE] [-x] [-S] [-lP LORA_PATH] [-lR LORA_RANK] [-rw]

options:
  -h, --help            show this help message and exit
  -m MODEL, --model MODEL
                        HuggingFace repository or path to model checkpoint directory
  -p PROMPT, --prompt PROMPT
                        Text prompt to condition on
  -n NEGATIVE_PROMPT, --negative-prompt NEGATIVE_PROMPT
                        Text prompt to condition against
  -o OUTPUT_DIR, --output-dir OUTPUT_DIR
                        Directory to save output video to
  -B BATCH_SIZE, --batch-size BATCH_SIZE
                        Batch size for inference
  -W WIDTH, --width WIDTH
                        Width of output video
  -H HEIGHT, --height HEIGHT
                        Height of output video
  -T NUM_FRAMES, --num-frames NUM_FRAMES
                        Total number of frames to generate
  -WS WINDOW_SIZE, --window-size WINDOW_SIZE
                        Number of frames to process at once (defaults to full
                        sequence). When less than num_frames, a round robin diffusion
                        process is used to denoise the full sequence iteratively one
                        window at a time. Must be divide num_frames exactly!
  -VB VAE_BATCH_SIZE, --vae-batch-size VAE_BATCH_SIZE
                        Batch size for VAE encoding/decoding to/from latents (higher
                        values = faster inference, but more memory usage).
  -s NUM_STEPS, --num-steps NUM_STEPS
                        Number of diffusion steps to run per frame.
  -g GUIDANCE_SCALE, --guidance-scale GUIDANCE_SCALE
                        Scale for guidance loss (higher values = more guidance, but
                        possibly more artifacts).
  -i INIT_VIDEO, --init-video INIT_VIDEO
                        Path to video to initialize diffusion from (will be resized to
                        the specified num_frames, height, and width).
  -iw INIT_WEIGHT, --init-weight INIT_WEIGHT
                        Strength of visual effect of init_video on the output (lower
                        values adhere more closely to the text prompt, but have a less
                        recognizable init_video).
  -f FPS, --fps FPS     FPS of output video
  -d DEVICE, --device DEVICE
                        Device to run inference on (defaults to cuda).
  -x, --xformers        Use XFormers attnetion, a memory-efficient attention
                        implementation (requires `pip install xformers`).
  -S, --sdp             Use SDP attention, PyTorch's built-in memory-efficient
                        attention implementation.
  -lP LORA_PATH, --lora_path LORA_PATH
                        Path to Low Rank Adaptation checkpoint file (defaults to empty
                        string, which uses no LoRA).
  -lR LORA_RANK, --lora_rank LORA_RANK
                        Size of the LoRA checkpoint's projection matrix (defaults to
                        64).
  -rw, --remove-watermark
                        Post-process the videos with LAMA to inpaint ModelScope's
                        common watermarks.

謝辞

私たちのコードは部分的にテキストからビデオへの微調整に基づいて構築されています

引用

研究に私たちの成果を使用する場合は、次の論文を引用してください。

@misc{yariv2023diverse,
      title={Diverse and Aligned Audio-to-Video Generation via Text-to-Video Model Adaptation}, 
      author={Guy Yariv and Itai Gat and Sagie Benaim and Lior Wolf and Idan Schwartz and Yossi Adi},
      year={2023},
      eprint={2309.16429},
      archivePrefix={arXiv},
      primaryClass={cs.LG}
}