Bahasa Inggris | tidak
Implementasi sumber terbuka dari model TTS zero-shot Microsoft VALL-E X.
Kami merilis model terlatih kami ke publik untuk penelitian atau penggunaan aplikasi.
VALL-E X adalah model text-to-speech (TTS) multibahasa luar biasa yang diusulkan oleh Microsoft. Meskipun Microsoft awalnya mempublikasikannya dalam makalah penelitian mereka, mereka tidak merilis kode atau model terlatih apa pun. Menyadari potensi dan nilai teknologi ini, tim kami mengambil tantangan untuk mereproduksi hasil dan melatih model kami sendiri. Kami senang untuk berbagi model VALL-E X kami yang telah dilatih dengan komunitas, memungkinkan semua orang merasakan kehebatan TTS generasi berikutnya!
Rincian lebih lanjut tentang model disajikan dalam kartu model.
2023.09.10
30.08.2023
23.08.2023
20.08.2023
2023.08.14
git clone https://github.com/Plachtaa/VALL-E-X.git
cd VALL-E-X
pip install -r requirements.txt
Catatan: Jika Anda ingin membuat prompt, Anda perlu menginstal ffmpeg dan menambahkan foldernya ke variabel lingkungan PATH.
Saat Anda menjalankan program untuk pertama kali, maka secara otomatis akan mengunduh model yang sesuai.
Jika pengunduhan gagal dan melaporkan kesalahan, ikuti langkah-langkah di bawah ini untuk mengunduh model secara manual.
(Harap perhatikan kapitalisasi folder)
Periksa apakah ada folder checkpoints
di direktori instalasi. Jika tidak, buat folder checkpoints
secara manual ( ./checkpoints/
) di direktori instalasi.
Periksa apakah ada file vallex-checkpoint.pt
di folder checkpoints
. Jika tidak, silakan unduh file vallex-checkpoint.pt
secara manual dari sini dan letakkan di folder checkpoints
.
Periksa apakah ada folder whisper
di direktori instalasi. Jika tidak, buat folder whisper
secara manual ( ./whisper/
) di direktori instalasi.
Periksa apakah ada file medium.pt
di folder whisper
. Jika belum, silakan unduh file medium.pt
secara manual dari sini dan letakkan di folder whisper
.
Belum siap menyiapkan lingkungan di komputer lokal Anda? Tidak masalah! Kami siap membantu Anda dengan demo online kami. Anda dapat mencoba VALL-E X langsung di Hugging Face atau Google Colab, dan merasakan kemampuan modelnya tanpa repot!
VALL-E X hadir dengan fungsionalitas mutakhir:
TTS Multibahasa : Berbicara dalam tiga bahasa - Inggris, Cina, dan Jepang - dengan sintesis ucapan yang alami dan ekspresif.
Kloning Suara Zero-shot : Daftarkan rekaman singkat 3~10 detik dari pembicara yang tidak terlihat, dan saksikan VALL-E X membuat ucapan yang dipersonalisasi dan berkualitas tinggi yang terdengar persis seperti pembicara tersebut!
Jelajahi halaman demo kami untuk melihat lebih banyak contoh!
from utils . generation import SAMPLE_RATE , generate_audio , preload_models
from scipy . io . wavfile import write as write_wav
from IPython . display import Audio
# download and load all models
preload_models ()
# generate audio from text
text_prompt = """
Hello, my name is Nose. And uh, and I like hamburger. Hahaha... But I also have other interests such as playing tactic toast.
"""
audio_array = generate_audio ( text_prompt )
# save audio to disk
write_wav ( "vallex_generation.wav" , SAMPLE_RATE , audio_array )
# play text in notebook
Audio ( audio_array , rate = SAMPLE_RATE )
text_prompt = """
チュソクは私のお気に入りの祭りです。 私は数日間休んで、友人や家族との時間を過ごすことができます。
"""
audio_array = generate_audio ( text_prompt )
Catatan: VALL-E X mengontrol aksen dengan sempurna bahkan saat mensintesis teks alih kode. Namun, Anda perlu menunjukkan bahasa dari masing-masing kalimat secara manual (karena alat g2p kami berbasis aturan)
text_prompt = """
[EN]The Thirty Years' War was a devastating conflict that had a profound impact on Europe.[EN]
[ZH]这是历史的开始。 如果您想听更多,请继续。[ZH]
"""
audio_array = generate_audio ( text_prompt , language = 'mix' )
VALL-E X menyediakan puluhan suara speaker yang dapat langsung Anda gunakan untuk inferensi! Telusuri semua suara dalam kode
VALL-E X mencoba mencocokkan nada, nada, emosi, dan prosodi dari preset tertentu. Model ini juga berupaya melestarikan musik, kebisingan sekitar, dll.
text_prompt = """
I am an innocent boy with a smoky voice. It is a great honor for me to speak at the United Nations today.
"""
audio_array = generate_audio ( text_prompt , prompt = "dingzhen" )
VALL-E X mendukung kloning suara! Anda dapat membuat perintah suara dengan orang, karakter, atau bahkan suara Anda sendiri, dan menggunakannya seperti preset suara lainnya.
Untuk membuat perintah suara, Anda perlu memberikan pidato berdurasi 3~10 detik, serta transkrip pidatonya. Anda juga dapat membiarkan transkrip kosong agar model Whisper dapat menghasilkan transkrip.
VALL-E X mencoba mencocokkan nada, nada, emosi, dan prosodi dari perintah yang diberikan. Model ini juga berupaya melestarikan musik, kebisingan sekitar, dll.
from utils . prompt_making import make_prompt
### Use given transcript
make_prompt ( name = "paimon" , audio_prompt_path = "paimon_prompt.wav" ,
transcript = "Just, what was that? Paimon thought we were gonna get eaten." )
### Alternatively, use whisper
make_prompt ( name = "paimon" , audio_prompt_path = "paimon_prompt.wav" )
Sekarang mari kita coba perintah yang baru saja kita buat!
from utils . generation import SAMPLE_RATE , generate_audio , preload_models
from scipy . io . wavfile import write as write_wav
# download and load all models
preload_models ()
text_prompt = """
Hey, Traveler, Listen to this, This machine has taken my voice, and now it can talk just like me!
"""
audio_array = generate_audio ( text_prompt , prompt = "paimon" )
write_wav ( "paimon_cloned.wav" , SAMPLE_RATE , audio_array )
Tidak nyaman dengan kode? Tidak masalah! Kami juga telah membuat antarmuka grafis yang ramah pengguna untuk VALL-E X. Ini memungkinkan Anda berinteraksi dengan model dengan mudah, membuat kloning suara dan sintesis ucapan multibahasa menjadi mudah.
Anda dapat meluncurkan UI dengan perintah berikut:
python -X utf8 launch-ui.py
VALL-E X bekerja dengan baik pada CPU dan GPU ( pytorch 2.0+
, CUDA 11.7 dan CUDA 12.0).
VRAM GPU 6GB cukup untuk menjalankan VALL-E X tanpa melakukan pembongkaran.
VALL-E X mirip dengan Bark, VALL-E, dan AudioLM, yang menghasilkan audio bergaya GPT dengan memprediksi token audio yang dikuantisasi oleh EnCodec.
Dibandingkan dengan Kulit Kayu:
Bahasa | Status |
---|---|
Bahasa Inggris (en) | ✅ |
Jepang (ja) | ✅ |
Cina, disederhanakan (zh) | ✅ |
wget
untuk mengunduh model ke direktori ./checkpoints/
saat Anda menjalankan program untuk pertama kali../checkpoints/
. .bat
untuk pengguna non-python Jika menurut Anda VALL-E X menarik dan berguna, beri kami bintang di GitHub! ️ Hal ini mendorong kami untuk terus menyempurnakan model dan menambahkan fitur-fitur menarik.
VALL-E X dilisensikan di bawah Lisensi MIT.
Ada pertanyaan atau butuh bantuan? Jangan ragu untuk membuka terbitan atau bergabung dengan Discord kami
Selamat mengkloning suara! ?