Deepstory เป็นอาร์ตเวิร์กที่รวมเอา Natural Language Generation (NLG) w/GPT-2, Text-to-Speech (TTS) w/Deep Convolutional TTS, คำพูดเป็นแอนิเมชั่นพร้อมแอนิเมชั่นที่ขับเคลื่อนด้วยคำพูด และแอนิเมชั่นรูปภาพพร้อม First Order Motion Model เข้าไป แอปพลิเคชันสื่อ
พูดง่ายๆ ก็คือ เปลี่ยนข้อความ/ข้อความที่สร้างขึ้นให้เป็นวิดีโอที่มีตัวละครเคลื่อนไหวเพื่อพูดเรื่องราวของคุณโดยใช้เสียงของเขา/เธอ
คุณสามารถแปลงรูปภาพเป็นวิดีโอได้ดังนี้:
มีเว็บอินเตอร์เฟสที่สะดวกสบายและแบ็กเอนด์ที่เขียนด้วยขวดเพื่อสร้างเรื่องราวของคุณเอง
รองรับรุ่นหม้อแปลงและรุ่น pytorch-dctts
Colab (ขวด-ngrok): https://colab.research.google.com/drive/1HYCPUmFw5rN8kvZdwzFpfBlaUMWPNHas?usp=sharing
วิดีโอ (ในกรณีที่คุณต้องการคำแนะนำ): https://blog.thetobysiu.com/video/
เวอร์ชัน Colab จะวางจำหน่ายเร็วๆ นี้!
Deepstory
├── animator.py
├── app.py
├── data
│ ├── dctts
│ │ ├── Geralt
│ │ │ ├── ssrn.pth
│ │ │ └── t2m.pth
│ │ ├── LJ
│ │ │ ├── ssrn.pth
│ │ │ └── t2m.pth
│ │ └── Yennefer
│ │ ├── ssrn.pth
│ │ └── t2m.pth
│ ├── fom
│ │ ├── vox-256.yaml
│ │ ├── vox-adv-256.yaml
│ │ ├── vox-adv-cpk.pth.tar
│ │ └── vox-cpk.pth.tar
│ ├── gpt2
│ │ ├── Waiting for Godot
│ │ │ ├── config.json
│ │ │ ├── default.txt
│ │ │ ├── merges.txt
│ │ │ ├── pytorch_model.bin
│ │ │ ├── special_tokens_map.json
│ │ │ ├── text.txt
│ │ │ ├── tokenizer_config.json
│ │ │ └── vocab.json
│ │ └── Witcher Books
│ │ ├── config.json
│ │ ├── default.txt
│ │ ├── merges.txt
│ │ ├── pytorch_model.bin
│ │ ├── special_tokens_map.json
│ │ ├── text.txt
│ │ ├── tokenizer_config.json
│ │ └── vocab.json
│ ├── images
│ │ ├── Geralt
│ │ │ ├── 0.jpg
│ │ │ └── fx.jpg
│ │ └── Yennefer
│ │ ├── 0.jpg
│ │ ├── 1.jpg
│ │ ├── 2.jpg
│ │ ├── 3.jpg
│ │ ├── 4.jpg
│ │ └── 5.jpg
│ └── sda
│ ├── grid.dat
│ └── image.bmp
├── deepstory.py
├── generate.py
├── modules
│ ├── dctts
│ │ ├── audio.py
│ │ ├── hparams.py
│ │ ├── __init__.py
│ │ ├── layers.py
│ │ ├── ssrn.py
│ │ └── text2mel.py
│ ├── fom
│ │ ├── animate.py
│ │ ├── dense_motion.py
│ │ ├── generator.py
│ │ ├── __init__.py
│ │ ├── keypoint_detector.py
│ │ ├── sync_batchnorm
│ │ │ ├── batchnorm.py
│ │ │ ├── comm.py
│ │ │ ├── __init__.py
│ │ │ └── replicate.py
│ │ └── util.py
│ └── sda
│ ├── encoder_audio.py
│ ├── encoder_image.py
│ ├── img_generator.py
│ ├── __init__.py
│ ├── rnn_audio.py
│ ├── sda.py
│ └── utils.py
├── README.md
├── requirements.txt
├── static
│ ├── bootstrap
│ │ ├── css
│ │ │ └── bootstrap.min.css
│ │ └── js
│ │ └── bootstrap.min.js
│ ├── css
│ │ └── styles.css
│ └── js
│ └── jquery.min.js
├── templates
│ ├── animate.html
│ ├── deepstory.js
│ ├── gen_sentences.html
│ ├── gpt2.html
│ ├── index.html
│ ├── map.html
│ ├── models.html
│ ├── sentences.html
│ ├── status.html
│ └── video.html
├── test.py
├── text.txt
├── util.py
└── voice.py
มีอยู่ในเวอร์ชัน Google Drive ของโครงการนี้ มีโมเดลทั้งหมด (รวมถึง Geralt, Yennefer) รวมอยู่ด้วย
คุณต้องดาวน์โหลดโมเดลภาษาอังกฤษของ spacey ก่อน
ตรวจสอบให้แน่ใจว่าคุณได้ติดตั้ง ffmpeg ในคอมพิวเตอร์ของคุณ และติดตั้ง ffmpeg-python แล้ว
https://drive.google.com/drive/folders/1AxORLF-QFd2wSORzMOKlvCQSFhdZSODJ?usp=sharing
เพื่อให้สิ่งต่าง ๆ ง่ายขึ้น เวอร์ชัน Google Colab จะออกเร็วๆ นี้...
จำเป็นต้องมี NVIDIA GPU ที่มี VRAM อย่างน้อย 4GB เพื่อรันโปรเจ็กต์นี้
https://github.com/tugstugi/pytorch-dc-tts
https://github.com/DinoMan/speech-driven-animation
https://github.com/AliaksandrSiarohin/first-order-model
https://github.com/huggingface/transformers
ทั้งโปรเจ็กต์ใช้ PyTorch ในขณะที่เทนเซอร์โฟลว์แสดงอยู่ใน Requirement.txt แต่ใช้สำหรับหม้อแปลงเพื่อแปลงโมเดลที่ได้รับการฝึกจาก gpt-2-simple เป็นโมเดล Pytorch
เฉพาะไฟล์ที่อยู่ในโฟลเดอร์โมดูลเท่านั้นที่ได้รับการแก้ไขจากต้นฉบับเล็กน้อย ไฟล์ที่เหลือฉันเขียนเองทั้งหมด ยกเว้นบางส่วนที่มีการอ้างอิง
ยังคงมีปัญหาด้านความจำอยู่บ้างหากคุณสังเคราะห์ประโยคภายในเซสชันซ้ำไปซ้ำมา แต่ต้องใช้เวลาอย่างน้อย 10 ครั้งจึงจะทำให้หน่วยความจำล้น
มีเครื่องมืออื่น ๆ ที่ฉันสร้างขึ้นเพื่อประมวลผลไฟล์ล่วงหน้า สามารถพบได้ในโปรไฟล์ของฉัน