ดาวน์โหลด deepstory - ดาวน์โหลดซอร์สโค้ด deepstory

deepstory

โค้ดแหล่งที่มา AI

1.0.0

ดาวน์โหลด

เรื่องราวลึกซึ้ง

Deepstory เป็นอาร์ตเวิร์กที่รวมเอา Natural Language Generation (NLG) w/GPT-2, Text-to-Speech (TTS) w/Deep Convolutional TTS, คำพูดเป็นแอนิเมชั่นพร้อมแอนิเมชั่นที่ขับเคลื่อนด้วยคำพูด และแอนิเมชั่นรูปภาพพร้อม First Order Motion Model เข้าไป แอปพลิเคชันสื่อ

พูดง่ายๆ ก็คือ เปลี่ยนข้อความ/ข้อความที่สร้างขึ้นให้เป็นวิดีโอที่มีตัวละครเคลื่อนไหวเพื่อพูดเรื่องราวของคุณโดยใช้เสียงของเขา/เธอ

คุณสามารถแปลงรูปภาพเป็นวิดีโอได้ดังนี้:

มีเว็บอินเตอร์เฟสที่สะดวกสบายและแบ็กเอนด์ที่เขียนด้วยขวดเพื่อสร้างเรื่องราวของคุณเอง

รองรับรุ่นหม้อแปลงและรุ่น pytorch-dctts

การสาธิตสด

Colab (ขวด-ngrok): https://colab.research.google.com/drive/1HYCPUmFw5rN8kvZdwzFpfBlaUMWPNHas?usp=sharing

วิดีโอ (ในกรณีที่คุณต้องการคำแนะนำ): https://blog.thetobysiu.com/video/

อัพเดท

ออกแบบอินเทอร์เฟซใหม่ โดยเฉพาะอินเทอร์เฟซ GPT2 ทั้งหมด
ขณะนี้ GPT2 รองรับการโหลดข้อความจากข้อมูลต้นฉบับ เพื่อให้สามารถสร้างเรื่องราวจากหนังสือต่อไปได้
หาขีดจำกัดโทเค็นใน GPT2 และอนุมานเฉพาะ 1,024 ที่ใกล้ที่สุด - ทำนายโทเค็นความยาว
GPT2 รองรับโหมดโต้ตอบที่สร้างประโยคหลายชุดและมีอินเทอร์เฟซสำหรับเพิ่มประโยคเหล่านั้น
ระบบการแมปผู้พูดประโยค ไม่ได้แทนที่ผู้พูดทั้งหมดตามค่าเริ่มต้นอีกต่อไป
การทำให้ข้อความเป็นมาตรฐานอยู่ในขั้นตอนการสังเคราะห์ เพื่อรักษาเครื่องหมายวรรคตอนไว้และสามารถอ้างอิงได้เพื่อให้มีระยะเวลาแปรผันในเสียงสังเคราะห์
ขณะนี้การสังเคราะห์เสียงทั้งหมดอยู่ในโฟลเดอร์ชั่วคราว ไฟล์เสียงที่สังเคราะห์จะถูกตัดแต่งเพื่อให้วิดีโอแอนิเมชั่นมีความแม่นยำมากขึ้น (ข้อมูลที่ได้รับการฝึกในโหมด sda ก็สั้นเช่นกัน)
ตอนนี้เสียงที่รวมไว้จะมีความเงียบแบบแปรผันตามเครื่องหมายวรรคตอน
โดยพื้นฐานแล้ว ให้เขียนเว็บอินเตอร์เฟสใหม่และโค้ดจำนวนมาก...

เวอร์ชัน Colab จะวางจำหน่ายเร็วๆ นี้!

อินเทอร์เฟซ

โครงสร้างโฟลเดอร์

 Deepstory
├── animator.py
├── app.py
├── data
│   ├── dctts
│   │   ├── Geralt
│   │   │   ├── ssrn.pth
│   │   │   └── t2m.pth
│   │   ├── LJ
│   │   │   ├── ssrn.pth
│   │   │   └── t2m.pth
│   │   └── Yennefer
│   │       ├── ssrn.pth
│   │       └── t2m.pth
│   ├── fom
│   │   ├── vox-256.yaml
│   │   ├── vox-adv-256.yaml
│   │   ├── vox-adv-cpk.pth.tar
│   │   └── vox-cpk.pth.tar
│   ├── gpt2
│   │   ├── Waiting for Godot
│   │   │   ├── config.json
│   │   │   ├── default.txt
│   │   │   ├── merges.txt
│   │   │   ├── pytorch_model.bin
│   │   │   ├── special_tokens_map.json
│   │   │   ├── text.txt
│   │   │   ├── tokenizer_config.json
│   │   │   └── vocab.json
│   │   └── Witcher Books
│   │       ├── config.json
│   │       ├── default.txt
│   │       ├── merges.txt
│   │       ├── pytorch_model.bin
│   │       ├── special_tokens_map.json
│   │       ├── text.txt
│   │       ├── tokenizer_config.json
│   │       └── vocab.json
│   ├── images
│   │   ├── Geralt
│   │   │   ├── 0.jpg
│   │   │   └── fx.jpg
│   │   └── Yennefer
│   │       ├── 0.jpg
│   │       ├── 1.jpg
│   │       ├── 2.jpg
│   │       ├── 3.jpg
│   │       ├── 4.jpg
│   │       └── 5.jpg
│   └── sda
│       ├── grid.dat
│       └── image.bmp
├── deepstory.py
├── generate.py
├── modules
│   ├── dctts
│   │   ├── audio.py
│   │   ├── hparams.py
│   │   ├── __init__.py
│   │   ├── layers.py
│   │   ├── ssrn.py
│   │   └── text2mel.py
│   ├── fom
│   │   ├── animate.py
│   │   ├── dense_motion.py
│   │   ├── generator.py
│   │   ├── __init__.py
│   │   ├── keypoint_detector.py
│   │   ├── sync_batchnorm
│   │   │   ├── batchnorm.py
│   │   │   ├── comm.py
│   │   │   ├── __init__.py
│   │   │   └── replicate.py
│   │   └── util.py
│   └── sda
│       ├── encoder_audio.py
│       ├── encoder_image.py
│       ├── img_generator.py
│       ├── __init__.py
│       ├── rnn_audio.py
│       ├── sda.py
│       └── utils.py
├── README.md
├── requirements.txt
├── static
│   ├── bootstrap
│   │   ├── css
│   │   │   └── bootstrap.min.css
│   │   └── js
│   │       └── bootstrap.min.js
│   ├── css
│   │   └── styles.css
│   └── js
│       └── jquery.min.js
├── templates
│   ├── animate.html
│   ├── deepstory.js
│   ├── gen_sentences.html
│   ├── gpt2.html
│   ├── index.html
│   ├── map.html
│   ├── models.html
│   ├── sentences.html
│   ├── status.html
│   └── video.html
├── test.py
├── text.txt
├── util.py
└── voice.py

ดาวน์โหลดโครงการให้เสร็จสมบูรณ์

มีอยู่ในเวอร์ชัน Google Drive ของโครงการนี้ มีโมเดลทั้งหมด (รวมถึง Geralt, Yennefer) รวมอยู่ด้วย

คุณต้องดาวน์โหลดโมเดลภาษาอังกฤษของ spacey ก่อน

ตรวจสอบให้แน่ใจว่าคุณได้ติดตั้ง ffmpeg ในคอมพิวเตอร์ของคุณ และติดตั้ง ffmpeg-python แล้ว

https://drive.google.com/drive/folders/1AxORLF-QFd2wSORzMOKlvCQSFhdZSODJ?usp=sharing

เพื่อให้สิ่งต่าง ๆ ง่ายขึ้น เวอร์ชัน Google Colab จะออกเร็วๆ นี้...

ความต้องการ

จำเป็นต้องมี NVIDIA GPU ที่มี VRAM อย่างน้อย 4GB เพื่อรันโปรเจ็กต์นี้

เครดิต

https://github.com/tugstugi/pytorch-dc-tts

https://github.com/DinoMan/speech-driven-animation

https://github.com/AliaksandrSiarohin/first-order-model

https://github.com/huggingface/transformers

หมายเหตุ

ทั้งโปรเจ็กต์ใช้ PyTorch ในขณะที่เทนเซอร์โฟลว์แสดงอยู่ใน Requirement.txt แต่ใช้สำหรับหม้อแปลงเพื่อแปลงโมเดลที่ได้รับการฝึกจาก gpt-2-simple เป็นโมเดล Pytorch

เฉพาะไฟล์ที่อยู่ในโฟลเดอร์โมดูลเท่านั้นที่ได้รับการแก้ไขจากต้นฉบับเล็กน้อย ไฟล์ที่เหลือฉันเขียนเองทั้งหมด ยกเว้นบางส่วนที่มีการอ้างอิง