emoji_vid_genダウンロード - emoji_vid_genソースコードのダウンロード

emoji_vid_gen

AI ソースコード

1.0.0

ダウンロード

絵文字ビデオジェネレーター

ビデオに変換されたサンプルスクリプト

EmojiVidGen は、テキストファイルからビデオを作成する楽しいツールです。スクリプト (ストーリーや対話に似たもの) を含むプレーンテキストファイルの形式で入力を受け取ります。次に、このスクリプトを素晴らしいビデオに変換します。 EmojiVidGen はプラグインシステムに基づいており、さまざまなモデルや言語を試すことができます。必要なのは想像力とタイピングのスキルだけです。

主な特長

テキストファイルを視覚的に魅力的なビデオに変換します
ナレーション、画像、音響効果を自動生成
8 GB のメモリを搭載したコンピューターでスムーズに動作するように設計されており、GPU がなくても妥当な処理速度を提供します。
タスクにさまざまな生成 AI モデルを利用します
強力なプラグインシステムに基づいて構築されているため、簡単に拡張できます。
さまざまなモデルと音声言語を切り替えます。

EmojiVidGen当初 GenAI を使ったエンターテイメントを目的としていましたが、特に有能な人材であれば、魅力的でクールなコンテンツを作成できる大きな可能性を秘めています。このプロジェクトは実験的なもので、主に教育目的で作成され、AI を活用したビデオ作成の可能性を探ります。

このソフトウェアは教育目的のみを目的としています。ご自身の判断と責任においてご使用ください。このコードで利用されている AI モデルには商用利用に対する制限がある場合があることに注意してください。

インストール

sudo apt update
sudo apt install espeak ffmpeg

git clone https://github.com/code2k13/emoji_vid_gen
cd emoji_vid_gen
wget https://github.com/googlefonts/noto-emoji/raw/main/fonts/NotoColorEmoji.ttf

pip install -r requirements.txt

サンプルスクリプト

注: スクリプトは常にImage:ディレクティブで始まる必要があります

Image: Cartoon illustration showing a beautiful landscape with mountains and a road.
Audio: Tranquil calm music occasional chirping of birds.
Title: EmojiVidGen
?: Emoji vid gen is a tool to create videos from text files using AI.

走り方

python generate_video.py stories/hello.txt hello.mp4

完全な機能を備えた例

Image:  A single trophy kept on table. comic book style.
Audio: Upbeat introduction music for cartoon show.
Title: Emoji Quiz Showdown
?: " Welcome to the Emoji Quiz Showdown! Are you ready to test your knowledge? "
?: " Meow! I'm ready! "
?: " Woof! Let's do this! "
Image: Cartoon illustration of the Eiffel Tower.
?: " First question What is the capital of France? "
Audio: suspenseful music playing.
?: " Paris! "
Audio: people applauding sound
Image: Cartoon illustration of Mount Everest.
?: " Correct! One point for the cat! Next question  What is the tallest mountain in the world? "
Audio: suspenseful music playing.
?: " Mount Everest! "
Audio: people applauding sound
Image: Cartoon illustration of a water molecule.
?: " Right again! One point for the dog! Next question  What is the chemical symbol for water? "
Audio: suspenseful music playing.
?: " H2O! "
Audio: people applauding sound
Image: Cartoon illustration of a globe with seven continents.
?: " Correct! Another point for the cat! Last question How many continents are there on Earth? "
Audio: suspenseful music playing.
?: " Seven! "
Audio: people applauding sound
?: " Correct! It's a tie! You both did great! Thanks for playing the Emoji Quiz Showdown! "

ナレーター

絵文字?️ナレーターとして予約されています。これを行の先頭で使用すると、システムはサウンドのみを生成し、背景に画像を出力しません。

プリセットの使用

ビデオ生成に関する前述の手順に従っている場合は、デフォルトの設定でテキスト読み上げエンジンとしてespeakが使用され、その結果、ロボットのようなサウンドの出力が得られることに気づいたかもしれません。 EmojiVidGen は、タスクの実行方法や使用されるモデルを変更できるプラグインで構成される内部構造で構築されています。

たとえば、テキストから画像への変換、テキストから音声への変換、またはテキストから音声への変換など、生成タスクのタイプごとに特定のプラグインを指定できます。各プラグインは独自のモデルとメソッドで動作するため、これらの設定を個別に構成するのは非常に困難な場合があります。このプロセスを簡素化するために、プリセットの概念を導入しました。プリセットを適用するには、 generate_video.pyファイルに--presetオプションを指定します。

たとえば、以下のプリセットでは、 local_mediumというプリセットが使用されています。

python generate_video.py stories/hello.txt hello.mp4 --preset local_medium

すべてのプリセットは./presets folderに保存されます。新しいプリセット (たとえば、 custom_preset ) を作成するには、`./presets' フォルダーに新しいcustom_preset.yamlファイルを作成し、次のように使用を開始します。

python generate_video.py stories/hello.txt hello.mp4 --preset custom_preset

charactersセクションで使用されるvoiceは、選択したtext_to_speechプロバイダーによってサポートされている必要があることに注意してください。画像は、正方形のアスペクト比で背景が透明な PNG ファイルであることが理想的です。

利用可能なプリセット

プリセット名	説明
openai_基本	テキスト読み上げ (標準) と画像生成 (DALL-E 2 @ 512x512) に OpenAI を使用します。 `OPENAI_API_KEY`環境変数を設定する必要があります
openai_medium	openai_basic に似ていますが、(DALL-E 3 @ 1024x1024) を使用します。 `OPENAI_API_KEY`環境変数を設定する必要があります
ローカル_基本	テキストから画像への`stabilityai/sd-turbo`モデルを備えたHuggingfaceの安定した拡散パイプラインを使用します。テキストから音声への変換には`espeak`使用し、テキストから音声への変換には Huggingface の AudioLDM パイプラインを使用します。
local_basic_gpu	local_basic と同じですが、cuda サポートが有効になっています。
ローカル_ミディアム	local_basic に似ていますが、テキスト読み上げエンジンとして`brave`を使用し、テキストから画像への`stabilityai/sdxl-turbo`モデルを使用します。
ローカル_ミディアム	local_medium と同じですが、cuda サポートが有効になっています。
イレブン_ミディアム	local_medium と同じですが、 `ElevenLabs`テキスト読み上げ API サポートが有効になっています。インターネットと`ELEVEN_API_KEY`変数を`.env`ファイルで定義する必要があります。インターネットとイレブンラボのアカウントが必要です。
パーラー_ミディアム	local_medium と同じですが、 `parler`使用したテキスト読み上げ API サポートが有効になっています。

キャラクターの設定

場合によっては、ビデオ内の文字として絵文字を使用したくない場合や、文字ごとに異なる音声を使用したくない場合があります。これは、プリセット yaml ファイルのcharactersセクションを使用して実現できるようになりました。以下に、そのようなセクションがどのように表示されるかを示す例を示します。

 global :
  width : 512
  height : 512 
  use_cuda : " false "
  characters :
    - name : " ? "
      voice : " fable "

    - name : " ? "
      image : " /workspace/emoji_vid_gen/cat.png "
      voice : " alloy "

    - name : " ? "
      image : " /workspace/emoji_vid_gen/dog.png "
      voice : " echo "

text_to_speech :
  provider : openai
  voice : Nova

カスタムプリセットの作成

WIP

キャッシュについて

EmojiVidGen は、キャッシュメカニズムを利用して、ビデオ作成中に生成されたアセットを保持します。各アセットは、使用される特定の「プロンプト」に関連付けられています。この機能は、特にビデオを繰り返し調整する場合に非常に有益であることが判明し、アセットを繰り返し再生成する必要がなくなります。ただし、 .cacheディレクトリは自動的にはクリアされないことに注意してください。ビデオプロジェクトを完了し、別のプロジェクトを開始するときにクリアすることをお勧めします。

ヒント: キャッシュされたアセットを強制的に再作成するには、スペースや句読点を追加するなど、「プロンプト」にわずかな変更を加えます。

事前に作成されたアセットの使用

アセットファイルが.cacheフォルダーに存在することを確認します。このようにスクリプトを作成します

Image: .cache/existing_background_hd.png
Audio: Funny opening music jingle.
Title: EmojiVidGen
?: .cache/existing_speech.wav

画像のデフォルトの幅と高さを変更する

適切なプリセットファイルをコピーし、次の行を変更します。

 global :
  width : 1152
  height : 896

注: この設定は安定した拡散の出力に影響します。すべての解像度がうまく機能するわけではありません。詳細については、 https://replicate.com/guides/stable-diffusion/how-to-use/ をチェックしてください。安定拡散は正方形のアスペクト比でうまく機能するようです。

既知の問題

espeakテキスト読み上げプロバイダーを使用すると、このエラーメッセージが表示されます。

Traceback (most recent call last):
  File " /usr/local/lib/python3.10/dist-packages/pyttsx3/drivers/espeak.py " , line 171, in _onSynth
    self._proxy.notify( ' finished-utterance ' , completed=True)
ReferenceError: weakly-referenced object no longer exists

このエラーは出力には影響しないため、今のところ無視してください。

以下のエラーが表示された場合は、 .cacheディレクトリを削除してください。

  File " plyvel/_plyvel.pyx " , line 247, in plyvel._plyvel.DB.__init__
  File " plyvel/_plyvel.pyx " , line 88, in plyvel._plyvel.raise_for_status
plyvel._plyvel.IOError: b ' IO error: lock .cache/asset/LOCK: Resource temporarily unavailable '

引用

 @misc{lacombe-etal-2024-parler-tts,
  author = {Yoach Lacombe and Vaibhav Srivastav and Sanchit Gandhi},
  title = {Parler-TTS},
  year = {2024},
  publisher = {GitHub},
  journal = {GitHub repository},
  howpublished = {url{https://github.com/huggingface/parler-tts}}
}

 @misc{lyth2024natural,
      title={Natural language guidance of high-fidelity text-to-speech with synthetic annotations},
      author={Dan Lyth and Simon King},
      year={2024},
      eprint={2402.01912},
      archivePrefix={arXiv},
      primaryClass={cs.SD}
}

拡大する

追加情報