ebsynth_utility
概要
IMG2IMGとEBSYNTHを使用してビデオを作成するためのAutomatic1111 UI拡張機能。
この拡張機能を使用すると、ebsynthを使用して編集されたビデオを出力できます(AEは必須ではありません)
ControlNetがインストールされた状態で、この拡張機能のすべての機能が適切に機能していることを確認しました!
ControlNetはビデオ編集に必要なので、インストールすることをお勧めします。
Multi ControlNet( "Canny" + "Normal Map")は、ビデオ編集に適しています。
Animatediff-Cliを変更して、柔軟なプロンプト仕様を可能にするTXT2Videoツールを作成しました。必要に応じて使用できます。
Animatediff-cli-prompt-travel
サンプル2.mp4
例
Clipsegでサンプル1マスク
- 左から最初:オリジナル
- 左から2番目:マスキング「猫」は「指」を除外します
- 左から3番目:マスキング「猫の頭」
- 右:カラーマッチャーで修正された色(ステージ3.5を参照)
- 複数のターゲットを指定することもできます。(猫、犬、男の子、女の子など)
sample_clipseg_and_colormacher.mp4
サンプル2ブレンドの背景
- 人:傑作、最高品質、傑作、1ガール、傑作、最高品質、アニメスクリーンキャップ、アニメスタイル
- 背景:サイバーパンク、工場、部屋、アニメスクリーンキャップ、アニメスタイル
- お気に入りのビデオとブレンドすることもできます。
サンプル6.mp4
サンプル3オートタグ
- 左:オリジナル
- センター:すべてのキーフレームに同じプロンプトを適用します
- 右:すべてのキーフレームにDeepDanbooruによる自動タグ付けを適用します
- この機能により、表情、手表現などの詳細な変化が改善されます。
サンプルビデオでは、「closed_eyes」と「hands_on_own_face」タグが追加されて、顔の前にもたらされた目の瞬きと手をよりよく表しています。
sample_autotag.mp4
サンプル4オートタグ付け(LORAを動的に適用)
- 左:すべてのキーフレームにDeepDanbooruによる自動タグ付けを適用します
- 右:すべてのキーフレームでdeepdanbooruによる自動タグ付け +「anyahehface」loraを動的に適用する
- 機能を追加して、自動添付のタグに従ってTi、ハイパーネット、ロラ、および追加のプロンプトを動的に適用しました。
サンプルビデオでは、「Smile」タグが与えられた場合、「Smile」タグの強度に応じてLoraとLoraトリガーキーワードを追加するように設定されています。
また、自動的に追加されたタグが間違っている場合があるため、不必要なタグがブラックリストにリストされています。
これが使用されている実際の構成ファイルです。使用するための「Project Directory」に配置されています。
sample.anyaheh.mp4
インストール
- オペレーティングシステムにFFMPEGをインストールします(https://www.geeksforgeeks.org/how-to-install-ffmpeg-on-windows/)
- Ebsynthをインストールします
- WebUIの[拡張機能]タブを使用して[URLからインストール]
使用法
- [ebsynth utility]タブに移動します。
- どこかで空のディレクトリを作成し、「プロジェクトディレクトリ」フィールドに入力します。
- どこかから編集するビデオを配置し、「オリジナルの映画パス」フィールドに記入します。最初は数秒の短いビデオを使用します。
- ステージ1を選択して生成します。
- ステージ1から7までの順に実行します。プロセス中の進行状況はWebUIに反映されていないため、コンソール画面を確認してください。 「完了」が表示されている場合。 WebUIでは、完成しています。
(現在の最新のWebUIでは、IMG2IMGのメイン画面に画像をドロップしないとエラーを引き起こすようです。
結果に影響しないため、画像をドロップしてください。)
注1
参照のために、私が1280x720 30fps 15SECビデオを編集したときに私がしたことは次のとおりです
ステージ1
構成するものは何もありません。
すべてのフレームのビデオおよびマスク画像のすべてのフレームが生成されます。
ステージ2
この拡張機能の実装では、キーフレーム間隔は、多くの動きがあり、ほとんど動きがない場合に長くなる場合に短くなるように選択されます。
アニメーションが崩壊した場合、キーフレームを増やします。フリックする場合は、キーフレームを減らします。
まず、デフォルトの設定で1回生成し、結果を心配することなくまっすぐ進みます。
ステージ3
キーフレームのいずれかを選択し、IMG2IMGにスローし、[Deepbooruを尋問]を実行します。
表示されたプロンプトからぼやけたような不要な単語を削除します。
通常、画像生成のために行うように、残りの設定を入力します。
これが私が使用した設定です。
- サンプリング方法:オイラーa
- サンプリング手順:50
- 幅:960
- 高さ:512
- CFGスケール:20
- 除去強度:0.2
拡張の設定は次のとおりです。
- マスクモード(IMG2IMGマスクモードをオーバーライド):通常
- IMG2IMGリピートカウント(ループバック):5
- 繰り返すときにnをシードに追加します:1
- フェイスクロップIMG2IMGを使用してください:true
- 顔検出方法:Yunet
- 最大作物サイズ:1024
- 顔の除去強度:0.25
- フェイスエリアの拡大:1.5(数が大きいほど、モデルの塗装スタイルに近いが、体と合併したときにシフトする可能性が高い)
- フェイスプロンプトを有効にする:false
このプロセスの試行錯誤は、最も時間のかかる部分です。
宛先フォルダーを監視し、結果が気に入らない場合は、設定を中断して変更してください。
[プロンプト] [強度の除去]および[顔の除去強度]フェイスクロップを使用する場合の設定は、結果に大きく影響します。
フェイスクロップIMG2IMGの詳細については、こちらをご覧ください
余裕があるメモリがたくさんある場合、アスペクト比を維持しながら幅と高さの値を増やすと、結果が大幅に向上する可能性があります。
この拡張機能は、調整に役立つ場合があります。
https://github.com/s9roll7/img2img_for_all_method
上記の情報は、コントロールネットがなかった時代からのものです。
ControlNetが一緒に使用される場合(特にマルチコントロールネット)、「強度」を高い値に設定することさえもうまく機能し、1.0に設定することで、意味のある結果が生成されます。
「強度の除去」が高い値に設定されている場合、「ループバック」を1に設定できます。
ステージ4
上または下にスケーリングして、元のビデオとまったく同じサイズに処理します。
このプロセスは、1回だけ行う必要があります。
- 幅:1280
- 高さ:720
- Upscaler 1:r-esrgan 4x+
- Upscaler 2:r-esrgan 4x+ anime6b
- Upscaler 2可視性:0.5
- GFPGAN可視性:1
- コードフォーマーの可視性:0
- コードフォーマーの重量:0
ステージ5
構成するものは何もありません。
.EBSファイルが生成されます。
ステージ6
.EBSファイルを実行します。
設定は変更しませんが、.EBS設定を調整できます。
ステージ7
最後に、ビデオを出力します。
私の場合、1から7までのプロセス全体に約30分かかりました。
- CrossFadeブレンドレート:1.0
- エクスポートタイプ:MP4
注2:マルチコントロールネットを一緒に使用する方法
WebUI設定で

IMG2IMGタブのControlNet設定(ControlNet 0用)

IMG2IMGタブのControlNet設定(ControlNet 1用)

img2imgタブのebsynth_utility設定
警告:コントロールネットの設定の「重量」は、次の値によってオーバーライドされます
注3:Clipsegの使用方法
