Fish Audio telah merilis model pemrosesan suara barunya, Fish Agent V0.13B, model suara-ke-unggun yang mengesankan yang dapat secara efisien dan akurat memproses ucapan, dan pandai mensimulasikan dan mengkloning suara yang berbeda. Model ini pra-terlatih berdasarkan QWEN-2.5-3B-instruct dan menggunakan dataset besar yang berisi 200 miliar token pidato dan teks. Inovasinya terletak pada adopsi arsitektur "semantik token-bebas" yang secara langsung memproses suara pada tingkat suara, sehingga meningkatkan kecepatan dan efisiensi, menyadari kloning suara "instan" dan konversi teks-ke-pidato, yang hanya membutuhkan 200 milidetik. Model ini mendukung berbagai bahasa dan merupakan open source, membawa kemungkinan baru untuk pengembangan teknologi suara AI.
Baru-baru ini, Audio Fish merilis model pemrosesan suara baru FISH Agen V0.13B. Ini berarti kami selangkah lebih dekat untuk memiliki asisten suara AI yang alami dan responsif.
Model Fish Agent V0.13B pra-terlatih berdasarkan QWEN-2.5-3B-instruksi dan menggunakan set data besar yang berisi 200 miliar token pidato dan teks. Tidak seperti model tradisional yang membutuhkan ucapan yang pertama kali mengubah ucapan semantik yang kompleks, Agen Ikan V0.13b mengadopsi arsitektur yang disebut "Token Tanpa Semantik" untuk memproses dan menghasilkan pidato langsung di tingkat suara. Pemrosesan langsung ini tidak hanya menyederhanakan struktur model, tetapi juga meningkatkan kecepatan dan efisiensi reaksi model.
Berkat arsitektur inovatif ini, Fish Agent v0.13b dapat dengan cepat dan alami menghasilkan suara berkualitas tinggi, memungkinkan kloning suara "instan" dan konversi teks-ke-speech, dengan waktu konversi teks-ke-audio (TTFA) hanya dalam 200 milidetik. . Fitur ini membuatnya ideal untuk skenario aplikasi yang membutuhkan pembuatan suara real-time, seperti asisten suara, layanan pelanggan otomatis, dan skenario lain yang membutuhkan umpan balik suara cepat.
Model Fish Agent V0.13B mendukung berbagai bahasa, termasuk bahasa Inggris, Cina, Jerman, Jepang, Prancis, Spanyol, Korea dan Arab, dan menggunakan sekitar 700.000 jam data audio multibahasa untuk pelatihan. Ini berarti dapat menangani berbagai bahasa dan konteks dan menghasilkan pengucapan yang lebih alami dan lebih dekat kepada orang sungguhan.
Selain generasi suara-ke-ucapan dan fungsi konversi teks-ke-unggun, Agen Ikan v0.13b juga memiliki fitur utama berikut:
Kloning suara nol-sampel: Kloning suara dapat dicapai tanpa pelatihan.
Parameter 3B yang disederhanakan: Gunakan 3 miliar parameter untuk pengembangan yang mudah.
Mendukung Input Teks dan Audio: Metode multi-input fleksibel.
Saat ini, Audio Fish telah bersumber terbuka model Fish Agent V0.13B dan menyediakan versi demo awal untuk pengalaman pengguna. Rilis model ini selanjutnya akan mempromosikan pengembangan teknologi suara AI dan membawa lebih banyak kemungkinan ke aplikasi seperti asisten suara dan orang virtual.
GitHub: https://github.com/fishaudio/fish-speech
Demo Agen Ikan: https://huggingface.co/spaces/fishaudio/fish-agent
Unduh model: https://huggingface.co/fishaudio/fish-agent-v0.1-3b
Laporan Teknis: https://arxiv.org/abs/2411.01156
Rilis open source dari Fish Agent V0.13B Model akan membawa terobosan baru ke penelitian dan penerapan bidang suara AI, dan ada baiknya menantikan perannya dalam pengembangan teknologi suara di masa depan. Saya berharap lebih banyak pengembang dapat berpartisipasi dan bersama -sama mempromosikan kemajuan teknologi suara AI.