Laporan editor Downcode: Tim peneliti dari Universitas Shanghai Jiao Tong, Universitas Cambridge, dan Institut Penelitian Mobil Geely baru-baru ini meluncurkan sistem text-to-speech (TTS) baru yang disebut F5-TTS. Sistem ini menggunakan metode bebas autoregresi, dikombinasikan dengan pencocokan aliran dan transformator difusi (DiT), yang secara efektif menyederhanakan proses kompleks model TTS tradisional dan mencapai terobosan signifikan dalam kualitas sintesis dan kecepatan inferensi. Dibandingkan dengan model TTS tradisional, F5-TTS berkinerja baik dalam hal kecepatan dan ketahanan pemrosesan, menghadirkan kemungkinan baru pada teknologi sintesis ucapan.
Baru-baru ini, tim peneliti dari Shanghai Jiao Tong University, Cambridge University dan Geely Automobile Research Institute meluncurkan sistem text-to-speech (TTS) baru yang disebut F5-TTS. Yang istimewa dari sistem ini adalah ia menggunakan metode bebas autoregresi yang menggabungkan pencocokan aliran dengan transformator difusi (DiT), yang berhasil menyederhanakan langkah-langkah kompleks dalam model TTS tradisional.
Seperti kita ketahui bersama, model TTS tradisional seringkali memerlukan pemodelan durasi yang kompleks, penyelarasan fonem, dan pengkodean teks khusus, yang meningkatkan kompleksitas proses sintesis. Secara khusus, model sebelumnya seperti E2TTS sering menghadapi masalah seperti konvergensi yang lambat dan penyelarasan teks dan ucapan yang tidak akurat, sehingga sulit diterapkan secara efisien dalam skenario dunia nyata. Kemunculan F5-TTS justru untuk mengatasi tantangan tersebut.
Prinsip kerja F5-TTS sederhana. Pertama, teks masukan diproses melalui arsitektur ConvNeXt agar lebih mudah diselaraskan dengan ucapan. Urutan karakter yang diisi kemudian dimasukkan ke dalam model bersama dengan versi masukan ucapan yang berisik.
Pelatihan sistem mengandalkan Diffusion Transformer (DiT), yang secara efektif memetakan distribusi awal sederhana ke distribusi data melalui pencocokan aliran. Selain itu, F5-TTS juga secara inovatif memperkenalkan strategi Sway Sampling selama inferensi, yang dapat memprioritaskan langkah-langkah alur awal dalam fase inferensi, sehingga meningkatkan keselarasan antara ucapan yang dihasilkan dan teks masukan.
Menurut hasil penelitian, F5-TTS melampaui banyak sistem TTS saat ini baik dalam kualitas sintesis maupun kecepatan inferensi. Pada kumpulan data LibriSpeech-PC, model ini mencapai tingkat kesalahan kata (WER) sebesar 2,42 dan faktor waktu nyata (RTF) sebesar 0,15 pada waktu inferensi, yang secara signifikan lebih baik dibandingkan model difusi sebelumnya E2TTS, yang memiliki kinerja lebih baik dalam pemrosesan kecepatan dan Ada kekurangan dalam ketahanan.
Pada saat yang sama, strategi Sway Sampling secara signifikan meningkatkan kealamian dan pemahaman ucapan yang dihasilkan, memungkinkan model mencapai pembuatan yang lancar dan ekspresif tanpa pelatihan.
F5-TTS meningkatkan ketahanan penyelarasan dan kualitas sintesis dengan menyederhanakan proses dan menghilangkan kebutuhan akan prediksi durasi, penyelarasan fonem, dan pengkodean teks eksplisit. Selain itu, para peneliti juga menekankan pertimbangan etis dan mengusulkan perlunya membangun sistem watermarking dan deteksi untuk mencegah penyalahgunaan model.
Pintu masuk proyek: https://github.com/SWivid/F5-TTS
Menyorot:
F5-TTS adalah jenis sistem text-to-speech autoregresif baru yang menyederhanakan kompleksitas model TTS tradisional.
Sistem ini menggunakan arsitektur ConvNeXt dan DiT untuk meningkatkan keselarasan teks dan ucapan serta meningkatkan kualitas sintesis secara signifikan.
? Para peneliti menekankan perlunya memperhatikan masalah etika dan menyarankan pengenalan watermarking dan mekanisme deteksi untuk mencegah potensi penyalahgunaan.
Kemunculan sistem F5-TTS telah membawa terobosan baru pada teknologi text-to-speech, dan kinerjanya yang efisien serta proses yang disederhanakan diharapkan dapat digunakan secara luas di banyak bidang. Namun, permasalahan etika juga memerlukan perhatian, dan penelitian selanjutnya harus didedikasikan untuk membangun mekanisme peraturan yang baik guna memastikan pengembangan teknologi yang bertanggung jawab.