Unduh VALL EX - Unduh kode sumber VALL EX

VALL E X

Kode Sumber AI

1.0.0

Unduh

VALL-E X: Sintesis Text-to-Speech Multibahasa dan Kloning Suara?

Bahasa Inggris | tidak
Implementasi sumber terbuka dari model TTS zero-shot Microsoft VALL-E X.
Kami merilis model terlatih kami ke publik untuk penelitian atau penggunaan aplikasi.

vallex-framework

VALL-E X adalah model text-to-speech (TTS) multibahasa luar biasa yang diusulkan oleh Microsoft. Meskipun Microsoft awalnya mempublikasikannya dalam makalah penelitian mereka, mereka tidak merilis kode atau model terlatih apa pun. Menyadari potensi dan nilai teknologi ini, tim kami mengambil tantangan untuk mereproduksi hasil dan melatih model kami sendiri. Kami senang untuk berbagi model VALL-E X kami yang telah dilatih dengan komunitas, memungkinkan semua orang merasakan kehebatan TTS generasi berikutnya!

Rincian lebih lanjut tentang model disajikan dalam kartu model.

Indeks Cepat

Pembaruan
? Fitur
Instalasi
Demo
? Penggunaan
❓ Pertanyaan Umum
? TODO

Pembaruan

2023.09.10

Menambahkan decoding batch dekoder AR untuk hasil pembangkitan yang lebih stabil.

30.08.2023

Mengganti dekoder EnCodec dengan dekoder Vocos, meningkatkan kualitas audio. (Terima kasih kepada @v0xie)

23.08.2023

Menambahkan pembuatan teks panjang.

20.08.2023

Menambahkan README berbahasa Mandarin.

2023.08.14

Pos pemeriksaan VALL-E X yang telah dilatih sebelumnya kini telah dilepaskan. Unduh di sini

Instalasi

Instal dengan pip, Python 3.10, CUDA 11.7 ~ 12.0, PyTorch 2.0+

 git clone https://github.com/Plachtaa/VALL-E-X.git
cd VALL-E-X
pip install -r requirements.txt

Catatan: Jika Anda ingin membuat prompt, Anda perlu menginstal ffmpeg dan menambahkan foldernya ke variabel lingkungan PATH.

Saat Anda menjalankan program untuk pertama kali, maka secara otomatis akan mengunduh model yang sesuai.

Jika pengunduhan gagal dan melaporkan kesalahan, ikuti langkah-langkah di bawah ini untuk mengunduh model secara manual.

(Harap perhatikan kapitalisasi folder)

Periksa apakah ada folder checkpoints di direktori instalasi. Jika tidak, buat folder checkpoints secara manual ( ./checkpoints/ ) di direktori instalasi.
Periksa apakah ada file vallex-checkpoint.pt di folder checkpoints . Jika tidak, silakan unduh file vallex-checkpoint.pt secara manual dari sini dan letakkan di folder checkpoints .
Periksa apakah ada folder whisper di direktori instalasi. Jika tidak, buat folder whisper secara manual ( ./whisper/ ) di direktori instalasi.
Periksa apakah ada file medium.pt di folder whisper . Jika belum, silakan unduh file medium.pt secara manual dari sini dan letakkan di folder whisper .

Demo

Belum siap menyiapkan lingkungan di komputer lokal Anda? Tidak masalah! Kami siap membantu Anda dengan demo online kami. Anda dapat mencoba VALL-E X langsung di Hugging Face atau Google Colab, dan merasakan kemampuan modelnya tanpa repot!

? Fitur

VALL-E X hadir dengan fungsionalitas mutakhir:

TTS Multibahasa : Berbicara dalam tiga bahasa - Inggris, Cina, dan Jepang - dengan sintesis ucapan yang alami dan ekspresif.
Kloning Suara Zero-shot : Daftarkan rekaman singkat 3~10 detik dari pembicara yang tidak terlihat, dan saksikan VALL-E X membuat ucapan yang dipersonalisasi dan berkualitas tinggi yang terdengar persis seperti pembicara tersebut!

lihat contoh

prompt.webm

keluaran.webm

Kontrol Emosi Ucapan : Rasakan kekuatan emosi! VALL-E X dapat mensintesis ucapan dengan emosi yang sama seperti perintah akustik yang diberikan, menambahkan lapisan ekspresi ekstra pada audio Anda.

lihat contoh

mengantuk-prompt.mp4

ngantuk-output.mp4

Sintesis Ucapan Lintas Bahasa Zero-shot : Ajak penutur satu bahasa dalam perjalanan linguistik! VALL-E X dapat menghasilkan ucapan yang dipersonalisasi dalam bahasa lain tanpa mengurangi kefasihan atau aksen. Di bawah ini adalah pembicaraan pembicara Jepang dalam bahasa Cina & Inggris. ?? ?

lihat contoh

jp-prompt.webm

en-output.webm

zh-output.webm

Kontrol Aksen : Berkreasilah dengan aksen! VALL-E X memungkinkan Anda bereksperimen dengan aksen yang berbeda, seperti berbicara bahasa Mandarin dengan aksen Inggris atau sebaliknya. ??

lihat contoh

en-prompt.webm

zh-aksen-output.webm

en-accent-output.webm

Pemeliharaan Lingkungan Akustik : Tidak perlu perintah audio yang bersih sempurna! VALL-E X beradaptasi dengan lingkungan akustik input, membuat pembuatan ucapan terasa alami dan mendalam.

lihat contoh

kebisingan-prompt.webm

keluaran kebisingan.webm

Jelajahi halaman demo kami untuk melihat lebih banyak contoh!

? Penggunaan dengan Python

? Dasar-dasar

 from utils . generation import SAMPLE_RATE , generate_audio , preload_models
from scipy . io . wavfile import write as write_wav
from IPython . display import Audio

# download and load all models
preload_models ()

# generate audio from text
text_prompt = """
Hello, my name is Nose. And uh, and I like hamburger. Hahaha... But I also have other interests such as playing tactic toast.
"""
audio_array = generate_audio ( text_prompt )

# save audio to disk
write_wav ( "vallex_generation.wav" , SAMPLE_RATE , audio_array )

# play text in notebook
Audio ( audio_array , rate = SAMPLE_RATE )

hamburger.webm

? Bahasa Asing

Implementasi VALL-E X ini juga mendukung bahasa Mandarin dan Jepang. Ketiga bahasa tersebut memiliki performa yang sama mengagumkannya!

 text_prompt = """
    チュソクは私のお気に入りの祭りです。 私は数日間休んで、友人や家族との時間を過ごすことができます。
"""
audio_array = generate_audio ( text_prompt )

vallex_japanese.webm

Catatan: VALL-E X mengontrol aksen dengan sempurna bahkan saat mensintesis teks alih kode. Namun, Anda perlu menunjukkan bahasa dari masing-masing kalimat secara manual (karena alat g2p kami berbasis aturan)

 text_prompt = """
    [EN]The Thirty Years' War was a devastating conflict that had a profound impact on Europe.[EN]
    [ZH]这是历史的开始。 如果您想听更多，请继续。[ZH]
"""
audio_array = generate_audio ( text_prompt , language = 'mix' )

vallex_codeswitch.webm

? Preset Suara

VALL-E X menyediakan puluhan suara speaker yang dapat langsung Anda gunakan untuk inferensi! Telusuri semua suara dalam kode

VALL-E X mencoba mencocokkan nada, nada, emosi, dan prosodi dari preset tertentu. Model ini juga berupaya melestarikan musik, kebisingan sekitar, dll.

 text_prompt = """
I am an innocent boy with a smoky voice. It is a great honor for me to speak at the United Nations today.
"""
audio_array = generate_audio ( text_prompt , prompt = "dingzhen" )

berasap.webm

Kloning Suara

VALL-E X mendukung kloning suara! Anda dapat membuat perintah suara dengan orang, karakter, atau bahkan suara Anda sendiri, dan menggunakannya seperti preset suara lainnya.
Untuk membuat perintah suara, Anda perlu memberikan pidato berdurasi 3~10 detik, serta transkrip pidatonya. Anda juga dapat membiarkan transkrip kosong agar model Whisper dapat menghasilkan transkrip.

VALL-E X mencoba mencocokkan nada, nada, emosi, dan prosodi dari perintah yang diberikan. Model ini juga berupaya melestarikan musik, kebisingan sekitar, dll.

 from utils . prompt_making import make_prompt

### Use given transcript
make_prompt ( name = "paimon" , audio_prompt_path = "paimon_prompt.wav" ,
                transcript = "Just, what was that? Paimon thought we were gonna get eaten." )

### Alternatively, use whisper
make_prompt ( name = "paimon" , audio_prompt_path = "paimon_prompt.wav" )

Sekarang mari kita coba perintah yang baru saja kita buat!

 from utils . generation import SAMPLE_RATE , generate_audio , preload_models
from scipy . io . wavfile import write as write_wav

# download and load all models
preload_models ()

text_prompt = """
Hey, Traveler, Listen to this, This machine has taken my voice, and now it can talk just like me!
"""
audio_array = generate_audio ( text_prompt , prompt = "paimon" )

write_wav ( "paimon_cloned.wav" , SAMPLE_RATE , audio_array )

paimon_prompt.webm

paimon_cloned.webm

?Antarmuka Pengguna

Tidak nyaman dengan kode? Tidak masalah! Kami juga telah membuat antarmuka grafis yang ramah pengguna untuk VALL-E X. Ini memungkinkan Anda berinteraksi dengan model dengan mudah, membuat kloning suara dan sintesis ucapan multibahasa menjadi mudah.
Anda dapat meluncurkan UI dengan perintah berikut:

 python -X utf8 launch-ui.py

Perangkat Keras dan Kecepatan Inferensi

VALL-E X bekerja dengan baik pada CPU dan GPU ( pytorch 2.0+ , CUDA 11.7 dan CUDA 12.0).

VRAM GPU 6GB cukup untuk menjalankan VALL-E X tanpa melakukan pembongkaran.

Detail

VALL-E X mirip dengan Bark, VALL-E, dan AudioLM, yang menghasilkan audio bergaya GPT dengan memprediksi token audio yang dikuantisasi oleh EnCodec.
Dibandingkan dengan Kulit Kayu:

✔ Ringan : 3️⃣ ✖ lebih kecil,
✔ Efisien : 4️⃣ ✖ lebih cepat,
✔ Kualitas lebih baik dalam bahasa Cina & Jepang
✔ Pidato lintas bahasa tanpa aksen asing
✔ Kloning suara yang mudah
Lebih sedikit bahasa
Tidak ada token khusus untuk musik/efek suara

Bahasa yang Didukung

Bahasa	Status
Bahasa Inggris (en)	✅
Jepang (ja)	✅
Cina, disederhanakan (zh)	✅

❓ Pertanyaan Umum

Di mana kode untuk pelatihan?

vall-e lifeiteng memiliki hampir segalanya. Tidak ada rencana untuk merilis kode pelatihan kami karena tidak ada perbedaan antara implementasi lifeiteng.

Di mana saya dapat mengunduh model pos pemeriksaan?

Kami menggunakan wget untuk mengunduh model ke direktori ./checkpoints/ saat Anda menjalankan program untuk pertama kali.
Jika pengunduhan gagal saat pertama kali dijalankan, silakan unduh secara manual dari tautan ini, dan letakkan file di bawah direktori ./checkpoints/ .

Berapa banyak VRAM yang saya perlukan?

VRAM GPU 6GB - Hampir semua GPU NVIDIA memenuhi persyaratan.

Mengapa model gagal menghasilkan teks yang panjang?

Kompleksitas komputasi transformator meningkat secara kuadratik sementara panjang urutan bertambah. Oleh karena itu, semua pelatihan disimpan di bawah 22 detik. Harap pastikan total panjang audio prompt dan audio yang dihasilkan kurang dari 22 detik untuk memastikan kinerja yang dapat diterima.

LEBIH BANYAK YANG HARUS DITAMBAHKAN...

? TODO

Tambahkan README berbahasa Mandarin
Pembuatan teks yang panjang
Ganti dekoder Encodec dengan dekoder Vocos
Penyempurnaan untuk adaptasi suara yang lebih baik
Skrip .bat untuk pengguna non-python
Untuk ditambahkan...

Apresiasi

Kertas VALL-E X untuk ide briliannya
vall-e lifeiteng untuk kode pelatihan terkait
menggonggong atas karya perintis yang luar biasa dalam model TTS neuro-codec

️ Tunjukkan Dukungan Anda

Jika menurut Anda VALL-E X menarik dan berguna, beri kami bintang di GitHub! ️ Hal ini mendorong kami untuk terus menyempurnakan model dan menambahkan fitur-fitur menarik.