Deepstory は、GPT-2 による自然言語生成 (NLG)、深層畳み込み TTS によるテキスト読み上げ (TTS)、音声駆動アニメーションによる音声アニメーション、一次モーション モデルによる画像アニメーションを組み込んだアートワークです。メディアアプリケーション。
簡単に言うと、テキスト/生成されたテキストをビデオに変換し、キャラクターが声を使ってストーリーを話すようにアニメーション化します。
次のように画像をビデオに変換できます。
独自のストーリーを作成するために、快適な Web インターフェイスと flask で書かれたバックエンドを提供します。
トランスフォーマー モデルと pytorch-dctts モデルをサポートします
Colab (flask-ngrok): https://colab.research.google.com/drive/1HYCPUmFw5rN8kvZdwzFpfBlaUMWPNHas?usp=sharing
ビデオ (説明が必要な場合): https://blog.thetobysiu.com/video/
Colabバージョンも近日公開予定です!
Deepstory
├── animator.py
├── app.py
├── data
│ ├── dctts
│ │ ├── Geralt
│ │ │ ├── ssrn.pth
│ │ │ └── t2m.pth
│ │ ├── LJ
│ │ │ ├── ssrn.pth
│ │ │ └── t2m.pth
│ │ └── Yennefer
│ │ ├── ssrn.pth
│ │ └── t2m.pth
│ ├── fom
│ │ ├── vox-256.yaml
│ │ ├── vox-adv-256.yaml
│ │ ├── vox-adv-cpk.pth.tar
│ │ └── vox-cpk.pth.tar
│ ├── gpt2
│ │ ├── Waiting for Godot
│ │ │ ├── config.json
│ │ │ ├── default.txt
│ │ │ ├── merges.txt
│ │ │ ├── pytorch_model.bin
│ │ │ ├── special_tokens_map.json
│ │ │ ├── text.txt
│ │ │ ├── tokenizer_config.json
│ │ │ └── vocab.json
│ │ └── Witcher Books
│ │ ├── config.json
│ │ ├── default.txt
│ │ ├── merges.txt
│ │ ├── pytorch_model.bin
│ │ ├── special_tokens_map.json
│ │ ├── text.txt
│ │ ├── tokenizer_config.json
│ │ └── vocab.json
│ ├── images
│ │ ├── Geralt
│ │ │ ├── 0.jpg
│ │ │ └── fx.jpg
│ │ └── Yennefer
│ │ ├── 0.jpg
│ │ ├── 1.jpg
│ │ ├── 2.jpg
│ │ ├── 3.jpg
│ │ ├── 4.jpg
│ │ └── 5.jpg
│ └── sda
│ ├── grid.dat
│ └── image.bmp
├── deepstory.py
├── generate.py
├── modules
│ ├── dctts
│ │ ├── audio.py
│ │ ├── hparams.py
│ │ ├── __init__.py
│ │ ├── layers.py
│ │ ├── ssrn.py
│ │ └── text2mel.py
│ ├── fom
│ │ ├── animate.py
│ │ ├── dense_motion.py
│ │ ├── generator.py
│ │ ├── __init__.py
│ │ ├── keypoint_detector.py
│ │ ├── sync_batchnorm
│ │ │ ├── batchnorm.py
│ │ │ ├── comm.py
│ │ │ ├── __init__.py
│ │ │ └── replicate.py
│ │ └── util.py
│ └── sda
│ ├── encoder_audio.py
│ ├── encoder_image.py
│ ├── img_generator.py
│ ├── __init__.py
│ ├── rnn_audio.py
│ ├── sda.py
│ └── utils.py
├── README.md
├── requirements.txt
├── static
│ ├── bootstrap
│ │ ├── css
│ │ │ └── bootstrap.min.css
│ │ └── js
│ │ └── bootstrap.min.js
│ ├── css
│ │ └── styles.css
│ └── js
│ └── jquery.min.js
├── templates
│ ├── animate.html
│ ├── deepstory.js
│ ├── gen_sentences.html
│ ├── gpt2.html
│ ├── index.html
│ ├── map.html
│ ├── models.html
│ ├── sentences.html
│ ├── status.html
│ └── video.html
├── test.py
├── text.txt
├── util.py
└── voice.py
これらは、このプロジェクトの Google ドライブ バージョンで入手できます。すべてのモデル(ゲラルト、イェネファーを含む)が含まれています。
最初に spacy english モデルをダウンロードする必要があります。
コンピュータに ffmpeg がインストールされており、ffmpeg-python がインストールされていることを確認してください。
https://drive.google.com/drive/folders/1AxORLF-QFd2wSORzMOKlvCQSFhdZSODJ?usp=sharing
話を簡単にするために、Google Colab バージョンが間もなくリリースされる予定です...
このプロジェクトを実行するには、少なくとも 4GB の VRAM を備えた nvidia GPU が必要です
https://github.com/tugstagi/pytorch-dc-tts
https://github.com/DinoMan/speech-driven-animation
https://github.com/AliaksandrSiarohin/first-order-model
https://github.com/huggingface/transformers
プロジェクト全体で PyTorch が使用されていますが、tensorflow はrequirements.txt にリストされており、gpt-2-simple からトレーニングされたモデルを Pytorch モデルに変換するためのトランスフォーマーに使用されました。
module フォルダー内のファイルのみがオリジナルからわずかに変更されています。残りのファイルは、参照されている一部を除き、すべて私が作成したものです。
セッション内で文章を何度も合成すると、メモリの問題がまだ発生しますが、メモリ オーバーフローが発生するまでには少なくとも 10 回かかります。
ファイルを前処理するために作成したツールのリポジトリは他にもあります。それらは私のプロフィールで見つけることができます。