Fish Audio merilis kloning suara real-time Fish Agent V0.1 3B

Penulis：Eve Cole Waktu Pembaruan：2024-12-24 19:48:01

Editor Downcodes mengetahui bahwa model pemrosesan ucapan terbaru Fish Agent V0.13B yang dirilis oleh Fish Audio Company telah membuat terobosan di bidang ucapan AI dengan kemampuan menghasilkan dan memproses ucapan yang efisien dan akurat. Model ini sangat baik dalam mensimulasikan dan mengkloning berbagai suara, secara signifikan meningkatkan fidelitas dan kecepatan respons asisten suara AI, dan memberikan pengalaman interaksi suara yang lebih alami dan lancar kepada pengguna. Arsitektur inovatifnya memungkinkan kloning suara "instan" dan konversi text-to-speech dengan waktu konversi hanya 200 milidetik, yang memungkinkannya menunjukkan potensi besar dalam aplikasi penghasil suara real-time seperti asisten suara dan layanan pelanggan otomatis.

Berkat arsitektur inovatif ini, Fish Agent V0.13B mampu menghasilkan ucapan berkualitas tinggi dengan cepat dan alami, mencapai kloning ucapan "instan" dan konversi teks-ke-ucapan, dengan waktu konversi teks-ke-audio (TTFA) sebesar hanya 200 milidetik. Fitur ini menjadikannya ideal untuk skenario aplikasi yang memerlukan pembuatan ucapan waktu nyata, seperti asisten suara, layanan pelanggan otomatis, dan skenario lain yang memerlukan umpan balik suara cepat.

Model Fish Agent V0.13B mendukung berbagai bahasa, termasuk Inggris, Cina, Jerman, Jepang, Prancis, Spanyol, Korea, dan Arab, dan dilatih menggunakan sekitar 700.000 jam data audio multibahasa. Artinya, ia dapat menangani berbagai bahasa dan konteks serta menghasilkan ucapan yang lebih alami dan mendekati apa yang diucapkan orang sungguhan.

Selain kemampuan pembuatan ucapan-ke-ucapan dan konversi teks-ke-ucapan, Fish Agent V0.13B juga mencakup fitur-fitur utama berikut:

Kloning suara tanpa sampel: Kloning suara dapat dilakukan tanpa pelatihan.

Parameter 3B yang disederhanakan: Gunakan 3 miliar parameter untuk memfasilitasi pengembangan.

Mendukung masukan teks dan audio: berbagai metode masukan yang fleksibel.

Saat ini, Fish Audio telah menjadi sumber terbuka model Fish Agent V0.13B dan menyediakan versi demo awal untuk dinikmati pengguna. Peluncuran model ini akan semakin mendorong pengembangan teknologi suara AI dan menghadirkan lebih banyak kemungkinan pada aplikasi seperti asisten suara dan manusia virtual.

GitHub: https://github.com/fishaudio/fish-speech

Demo Agen Ikan: https://huggingface.co/spaces/fishaudio/fish-agent

Unduhan model: https://huggingface.co/fishaudio/fish-agent-v0.1-3b

Laporan teknis: https://arxiv.org/abs/2411.01156

Rilis open source dari Fish Agent V0.13B menandai tonggak sejarah baru dalam teknologi suara AI, menyediakan alat canggih bagi pengembang dan peneliti, dan juga menunjukkan bahwa aplikasi suara AI akan lebih kaya dan lebih nyaman di masa depan. Kami menantikan Fish Audio menghadirkan lebih banyak inovasi di bidang suara AI!