unduhan emoji_vid_gen - unduhan kode sumber emoji_vid

emoji_vid_gen

Kode Sumber AI

1.0.0

Unduh

Pembuat Video Emoji

contoh skrip dikonversi ke video

EmojiVidGen adalah alat menyenangkan yang membuat video dari file teks. Dibutuhkan input berupa file teks biasa yang berisi skrip (mirip dengan cerita atau dialog). Itu kemudian mengubah skrip ini menjadi video yang menakjubkan. EmojiVidGen didasarkan pada sistem plugin, yang memungkinkan untuk bereksperimen dengan berbagai model dan bahasa. Yang Anda butuhkan hanyalah imajinasi dan keterampilan mengetik!

Fitur Utama

Mengubah file teks menjadi video yang menarik secara visual
Secara otomatis menghasilkan narasi, gambar, dan efek audio
Dirancang untuk berjalan lancar di komputer dengan memori 8 GB, menawarkan kecepatan pemrosesan yang wajar bahkan tanpa GPU
Memanfaatkan berbagai model AI Generatif untuk tugasnya
Dibangun pada sistem plugin yang kuat, memungkinkan ekstensibilitas yang mudah
Beralih di antara berbagai model dan bahasa lisan.

Meskipun awalnya ditujukan untuk hiburan dengan GenAI, EmojiVidGen memiliki potensi signifikan dalam menghasilkan konten yang menarik dan keren, terutama di tangan yang cakap. Proyek ini bersifat eksperimental dan terutama dibuat untuk tujuan pendidikan, mengeksplorasi kemungkinan pembuatan video yang didukung AI.

Perangkat lunak ini dimaksudkan semata-mata untuk tujuan pendidikan. Ini digunakan atas kebijaksanaan dan risiko Anda sendiri. Perlu diketahui bahwa model AI yang digunakan dalam kode ini mungkin memiliki batasan terhadap penggunaan komersial.

Instalasi

sudo apt update
sudo apt install espeak ffmpeg

git clone https://github.com/code2k13/emoji_vid_gen
cd emoji_vid_gen
wget https://github.com/googlefonts/noto-emoji/raw/main/fonts/NotoColorEmoji.ttf

pip install -r requirements.txt

Contoh skrip

Catatan: Skrip harus selalu dimulai dengan direktif Image:

Image: Cartoon illustration showing a beautiful landscape with mountains and a road.
Audio: Tranquil calm music occasional chirping of birds.
Title: EmojiVidGen
?: Emoji vid gen is a tool to create videos from text files using AI.

Bagaimana cara menjalankannya

python generate_video.py stories/hello.txt hello.mp4

Contoh berfitur lengkap

Image:  A single trophy kept on table. comic book style.
Audio: Upbeat introduction music for cartoon show.
Title: Emoji Quiz Showdown
?: " Welcome to the Emoji Quiz Showdown! Are you ready to test your knowledge? "
?: " Meow! I'm ready! "
?: " Woof! Let's do this! "
Image: Cartoon illustration of the Eiffel Tower.
?: " First question What is the capital of France? "
Audio: suspenseful music playing.
?: " Paris! "
Audio: people applauding sound
Image: Cartoon illustration of Mount Everest.
?: " Correct! One point for the cat! Next question  What is the tallest mountain in the world? "
Audio: suspenseful music playing.
?: " Mount Everest! "
Audio: people applauding sound
Image: Cartoon illustration of a water molecule.
?: " Right again! One point for the dog! Next question  What is the chemical symbol for water? "
Audio: suspenseful music playing.
?: " H2O! "
Audio: people applauding sound
Image: Cartoon illustration of a globe with seven continents.
?: " Correct! Another point for the cat! Last question How many continents are there on Earth? "
Audio: suspenseful music playing.
?: " Seven! "
Audio: people applauding sound
?: " Correct! It's a tie! You both did great! Thanks for playing the Emoji Quiz Showdown! "

Narator

Emoji ?️ dicadangkan sebagai narator. Menggunakannya di awal baris akan menyebabkan sistem hanya menghasilkan suara dan tidak mengeluarkan gambar apa pun di latar belakang.

Menggunakan preset

Jika Anda telah mengikuti petunjuk sebelumnya untuk pembuatan video, Anda mungkin memperhatikan bahwa pengaturan default menggunakan espeak sebagai mesin text-to-speech, sehingga menghasilkan keluaran yang terdengar seperti robot. EmojiVidGen dibangun dengan struktur internal yang terdiri dari plugin, masing-masing mampu mengubah cara tugas dijalankan atau model mana yang digunakan.

Misalnya, Anda dapat menentukan plugin spesifik untuk setiap jenis tugas pembuatan—baik itu text-to-image, text-to-audio, atau text-to-speech. Karena setiap plugin beroperasi dengan model dan metode uniknya, mengonfigurasi pengaturan ini satu per satu bisa sangat melelahkan. Untuk menyederhanakan proses ini, saya telah memperkenalkan konsep preset. Anda dapat menerapkan preset dengan memberikan opsi --preset ke file generate_video.py .

Misalnya preset di bawah ini menggunakan preset yang disebut local_medium .

python generate_video.py stories/hello.txt hello.mp4 --preset local_medium

Semua preset disimpan di ./presets folder . Untuk membuat preset baru (misalnya custom_preset ), cukup buat file custom_preset.yaml baru di folder `./presets' dan mulai gunakan seperti ini

python generate_video.py stories/hello.txt hello.mp4 --preset custom_preset

Perhatikan bahwa voice yang digunakan di bagian characters harus didukung oleh penyedia text_to_speech yang dipilih. Gambar idealnya berupa file PNG dengan rasio aspek persegi dan latar belakang transparan.

Preset yang Tersedia

Nama Prasetel	Keterangan
openai_basic	Menggunakan OpenAI untuk pembuatan teks ke ucapan (standar) dan gambar (DALL-E 2 @ 512x512). Perlu diisi variabel lingkungan `OPENAI_API_KEY`
openai_medium	Mirip dengan openai_basic tetapi menggunakan (DALL-E 3 @ 1024x1024). Perlu diisi variabel lingkungan `OPENAI_API_KEY`
lokal_dasar	Menggunakan pipa Difusi Stabil Huggingface dengan model `stabilityai/sd-turbo` untuk teks ke gambar. Menggunakan `espeak` untuk teks ke ucapan dan saluran AudioLDM Huggingface untuk teks ke audio.
local_basic_gpu	Sama seperti local_basic, tetapi dengan dukungan cuda diaktifkan.
lokal_medium	Mirip dengan local_basic tetapi menggunakan `brave` sebagai mesin teks ke ucapan dan model `stabilityai/sdxl-turbo` untuk teks ke gambar
lokal_medium	Sama seperti local_medium, tetapi dengan dukungan cuda diaktifkan.
sebelas_medium	Sama seperti local_medium, tetapi menggunakan dukungan API teks ke ucapan `ElevenLabs` diaktifkan. Membutuhkan internet dan variabel `ELEVEN_API_KEY` untuk didefinisikan dalam file `.env` . Membutuhkan internet dan akun ElevenLabs.
parler_medium	Sama seperti local_medium, tetapi menggunakan `parler` dukungan API teks ke ucapan diaktifkan.

Mengonfigurasi karakter

Terkadang Anda mungkin tidak ingin menggunakan emoji sebagai karakter dalam video Anda atau menggunakan suara yang berbeda untuk setiap karakter. Ini sekarang dapat dicapai dengan menggunakan bagian characters di file yaml yang telah ditetapkan sebelumnya. Di bawah ini adalah contoh tampilan bagian tersebut:

 global :
  width : 512
  height : 512 
  use_cuda : " false "
  characters :
    - name : " ? "
      voice : " fable "

    - name : " ? "
      image : " /workspace/emoji_vid_gen/cat.png "
      voice : " alloy "

    - name : " ? "
      image : " /workspace/emoji_vid_gen/dog.png "
      voice : " echo "

text_to_speech :
  provider : openai
  voice : Nova

Membuat preset khusus

WIP

Tentang Tembolok

EmojiVidGen menggunakan mekanisme cache untuk menyimpan aset yang dihasilkan selama pembuatan video, masing-masing terkait dengan 'prompt' spesifik yang digunakan. Fitur ini terbukti sangat bermanfaat, terutama saat menyempurnakan video secara berulang, sehingga menghilangkan kebutuhan untuk membuat ulang aset secara berulang. Namun, perlu diketahui bahwa direktori .cache tidak dihapus secara otomatis. Dianjurkan untuk menghapusnya setelah menyelesaikan proyek video dan memulai proyek video lainnya.

Tip: Untuk memaksa pembuatan ulang aset yang disimpan dalam cache, lakukan perubahan kecil pada 'perintah' seperti menambahkan spasi atau tanda baca

Menggunakan aset yang telah dibuat sebelumnya

Pastikan file aset ada di folder .cache . Buat skrip dengan cara ini

Image: .cache/existing_background_hd.png
Audio: Funny opening music jingle.
Title: EmojiVidGen
?: .cache/existing_speech.wav

Ubah lebar dan tinggi default gambar

Salin file preset yang sesuai dan ubah baris berikut:

 global :
  width : 1152
  height : 896

Catatan: Pengaturan ini mempengaruhi keluaran difusi stabil. Tidak semua resolusi berhasil dengan baik. Untuk informasi lebih lanjut, periksa https://replication.com/guides/stable-diffusion/how-to-use/ ini. Difusi Stabil tampaknya berfungsi baik dengan rasio aspek persegi.

Masalah yang diketahui

Anda akan melihat pesan kesalahan ini saat menggunakan penyedia teks ke espeak .

Traceback (most recent call last):
  File " /usr/local/lib/python3.10/dist-packages/pyttsx3/drivers/espeak.py " , line 171, in _onSynth
    self._proxy.notify( ' finished-utterance ' , completed=True)
ReferenceError: weakly-referenced object no longer exists

Abaikan kesalahan ini untuk saat ini karena tidak mempengaruhi keluaran.

Jika Anda menerima kesalahan di bawah ini, hapus direktori .cache

  File " plyvel/_plyvel.pyx " , line 247, in plyvel._plyvel.DB.__init__
  File " plyvel/_plyvel.pyx " , line 88, in plyvel._plyvel.raise_for_status
plyvel._plyvel.IOError: b ' IO error: lock .cache/asset/LOCK: Resource temporarily unavailable '

Kutipan

 @misc{lacombe-etal-2024-parler-tts,
  author = {Yoach Lacombe and Vaibhav Srivastav and Sanchit Gandhi},
  title = {Parler-TTS},
  year = {2024},
  publisher = {GitHub},
  journal = {GitHub repository},
  howpublished = {url{https://github.com/huggingface/parler-tts}}
}

 @misc{lyth2024natural,
      title={Natural language guidance of high-fidelity text-to-speech with synthetic annotations},
      author={Dan Lyth and Simon King},
      year={2024},
      eprint={2402.01912},
      archivePrefix={arXiv},
      primaryClass={cs.SD}
}

Memperluas

Informasi Tambahan

Versi 1.0.0
Tipe Kode Sumber AI
Waktu Pembaruan 2024-12-30
ukuran 3.67MB
Berasal dari Github

Aplikasi Terkait

OpenCore_NO_ACPI_Build

2024-11-13
nspanel_pro_tools_apk

2024-11-12
zkwork_aleo_gpu_worker

2024-11-11
lysmarine_gen

2024-11-06
nextcloud_share_url_downloader

2024-11-01
Mesin analisis data Lihua versi gratis 3.0_search_navigation_collection_public opinion_ranking_api

2022-06-28

Direkomendasikan untuk Anda

chat.petals.dev

Kode sumber lainnya

1.0.0
GPT Prompt Templates

Kode sumber lainnya

1.0.0
GPTyped

Kode sumber lainnya

GPTyped 1.0.5
node telegram bot api

Kode Sumber AI

v0.50.0
typebot.io

Kode Sumber AI

v3.1.2
python wechaty getting started

Kode Sumber AI

1.0.0
waymo open dataset

Kode sumber lainnya

December 2023 Update
termwind

Kategori lainnya

v2.3.0
wp functions

Kategori lainnya

1.0.0

Informasi Terkait Semua