Deepstory هو عمل فني يتضمن إنشاء اللغات الطبيعية (NLG) مع GPT-2، وتحويل النص إلى كلام (TTS) مع TTS تلافيفي عميق، وتحويل الكلام إلى رسوم متحركة مع رسوم متحركة مدفوعة بالكلام، ورسوم متحركة للصور مع نموذج حركة من الدرجة الأولى في تطبيق وسائل الإعلام.
بكل بساطة، فهو يحول النص/النص الذي تم إنشاؤه إلى مقطع فيديو حيث يتم تحريك الشخصية لتتحدث عن قصتك باستخدام صوتها.
يمكنك تحويل الصورة إلى فيديو مثل هذا:
يوفر واجهة ويب مريحة وواجهة خلفية مكتوبة بقارورة لإنشاء قصتك الخاصة.
وهو يدعم نموذج المحولات، ونماذج pytorch-dctts
كولاب (قارورة-نغروك): https://colab.research.google.com/drive/1HYCPUmFw5rN8kvZdwzFpfBlaUMWPHas?usp=sharing
فيديو (في حال كنت بحاجة إلى تعليمات): https://blog.thetobysiu.com/video/
نسخة كولاب ستكون متاحة قريبا!
Deepstory
├── animator.py
├── app.py
├── data
│ ├── dctts
│ │ ├── Geralt
│ │ │ ├── ssrn.pth
│ │ │ └── t2m.pth
│ │ ├── LJ
│ │ │ ├── ssrn.pth
│ │ │ └── t2m.pth
│ │ └── Yennefer
│ │ ├── ssrn.pth
│ │ └── t2m.pth
│ ├── fom
│ │ ├── vox-256.yaml
│ │ ├── vox-adv-256.yaml
│ │ ├── vox-adv-cpk.pth.tar
│ │ └── vox-cpk.pth.tar
│ ├── gpt2
│ │ ├── Waiting for Godot
│ │ │ ├── config.json
│ │ │ ├── default.txt
│ │ │ ├── merges.txt
│ │ │ ├── pytorch_model.bin
│ │ │ ├── special_tokens_map.json
│ │ │ ├── text.txt
│ │ │ ├── tokenizer_config.json
│ │ │ └── vocab.json
│ │ └── Witcher Books
│ │ ├── config.json
│ │ ├── default.txt
│ │ ├── merges.txt
│ │ ├── pytorch_model.bin
│ │ ├── special_tokens_map.json
│ │ ├── text.txt
│ │ ├── tokenizer_config.json
│ │ └── vocab.json
│ ├── images
│ │ ├── Geralt
│ │ │ ├── 0.jpg
│ │ │ └── fx.jpg
│ │ └── Yennefer
│ │ ├── 0.jpg
│ │ ├── 1.jpg
│ │ ├── 2.jpg
│ │ ├── 3.jpg
│ │ ├── 4.jpg
│ │ └── 5.jpg
│ └── sda
│ ├── grid.dat
│ └── image.bmp
├── deepstory.py
├── generate.py
├── modules
│ ├── dctts
│ │ ├── audio.py
│ │ ├── hparams.py
│ │ ├── __init__.py
│ │ ├── layers.py
│ │ ├── ssrn.py
│ │ └── text2mel.py
│ ├── fom
│ │ ├── animate.py
│ │ ├── dense_motion.py
│ │ ├── generator.py
│ │ ├── __init__.py
│ │ ├── keypoint_detector.py
│ │ ├── sync_batchnorm
│ │ │ ├── batchnorm.py
│ │ │ ├── comm.py
│ │ │ ├── __init__.py
│ │ │ └── replicate.py
│ │ └── util.py
│ └── sda
│ ├── encoder_audio.py
│ ├── encoder_image.py
│ ├── img_generator.py
│ ├── __init__.py
│ ├── rnn_audio.py
│ ├── sda.py
│ └── utils.py
├── README.md
├── requirements.txt
├── static
│ ├── bootstrap
│ │ ├── css
│ │ │ └── bootstrap.min.css
│ │ └── js
│ │ └── bootstrap.min.js
│ ├── css
│ │ └── styles.css
│ └── js
│ └── jquery.min.js
├── templates
│ ├── animate.html
│ ├── deepstory.js
│ ├── gen_sentences.html
│ ├── gpt2.html
│ ├── index.html
│ ├── map.html
│ ├── models.html
│ ├── sentences.html
│ ├── status.html
│ └── video.html
├── test.py
├── text.txt
├── util.py
└── voice.py
وهي متوفرة في إصدار جوجل درايف لهذا المشروع. يتم تضمين كافة النماذج (بما في ذلك Geralt، Yennefer).
يجب عليك تنزيل النموذج الإنجليزي الفضفاض أولاً.
تأكد من تثبيت ffmpeg على جهاز الكمبيوتر الخاص بك، ومن تثبيت ffmpeg-python.
https://drive.google.com/drive/folders/1AxORLF-QFd2wSORzMOKlvCQSFhdZSODJ?usp=sharing
لتبسيط الأمور، سيتم إصدار نسخة google colab قريبًا...
من الضروري أن يكون لديك وحدة معالجة رسومات nvidia مع 4 جيجابايت على الأقل من VRAM لتشغيل هذا المشروع
https://github.com/tugstugi/pytorch-dc-tts
https://github.com/DinoMan/speech-driven-animation
https://github.com/AliaksandrSiarohin/first-order-model
https://github.com/huggingface/transformers
يستخدم المشروع بأكمله PyTorch، بينما يتم إدراج Tensorflow في ملف Requirements.txt، وقد تم استخدامه للمحولات لتحويل نموذج تم تدريبه من gpt-2-simple إلى نموذج Pytorch.
تم تعديل الملفات الموجودة داخل مجلد الوحدات فقط بشكل طفيف عن الملف الأصلي. الملفات المتبقية كلها مكتوبة بواسطتي، باستثناء بعض الأجزاء التي تمت الإشارة إليها.
لا تزال هناك بعض مشكلات الذاكرة إذا قمت بتجميع الجمل خلال الجلسة مرارًا وتكرارًا، ولكن الأمر يستغرق 10 مرات على الأقل للتسبب في تجاوز الذاكرة.
هناك مستودعات أخرى للأدوات التي قمت بإنشائها لمعالجة الملفات مسبقًا. يمكن العثور عليها في ملفي الشخصي.