Dalam beberapa tahun terakhir, teknologi pembuatan teks-ke-audio telah berkembang pesat, memberikan vitalitas baru ke dalam bidang kecerdasan buatan. Artikel ini akan fokus pada model baru yang disebut TANGOFLUX, yang menunjukkan keunggulan mengesankan dalam kecepatan dan efisiensi serta membawa terobosan baru dalam penelitian dan penerapan teknologi pembuatan audio teks. Model TANGOFLUX tidak hanya menghasilkan dengan cepat, tetapi juga berkinerja baik dalam hal kualitas audio dan keragaman efek suara. Fitur open source-nya lebih kondusif untuk pengembangan bersama antara akademisi dan industri.
Di bidang kecerdasan buatan, teknologi pembuatan audio teks secara bertahap menjadi pusat penelitian. Baru-baru ini, para peneliti meluncurkan model baru bernama TANGOFLUX, yang memiliki kinerja dan efisiensi luar biasa.
TANGOFLUX adalah model generasi teks-ke-audio yang efisien dengan 515 juta parameter yang dapat menghasilkan audio 44,1kHz hingga 30 detik hanya dalam 3,7 detik. Kecepatan ini membuat kinerjanya pada satu GPU A40 sangat luar biasa.
Fitur utama TANGOFLUX adalah dapat menghasilkan berbagai efek suara, seperti kicauan burung, peluit, ledakan, dll. Juga mendukung pembangkitan musik, namun efeknya kurang ideal.
Tantangan utama dalam model generatif teks-ke-audio adalah cara membuat pasangan pilihan. Tidak seperti model bahasa besar (LLM), model pembuatan teks ke audio tidak memiliki mekanisme penghargaan yang dapat diverifikasi atau jawaban standar terbaik. Untuk mengatasi masalah ini, tim peneliti mengusulkan kerangka kerja baru yang disebut CLAP-Ranked Preference Optimization (CRPO). Kerangka kerja ini meningkatkan kinerja penyelarasan model pembuatan teks-ke-audio dengan menghasilkan dan mengoptimalkan data preferensi secara berulang. Penelitian menunjukkan bahwa data preferensi audio yang dihasilkan menggunakan CRPO mengungguli alternatif yang ada.
Melalui kerangka kerja ini, TANGOFLUX mencapai kinerja terdepan dalam berbagai tolok ukur obyektif dan subyektif. Selain itu, tim peneliti juga memutuskan untuk menjadikan semua kode dan model menjadi open source untuk mendukung penelitian lebih banyak orang tentang pembuatan audio teks. Untuk skenario aplikasi yang memerlukan pembuatan audio, TANGOFLUX tidak diragukan lagi merupakan kemajuan teknologi yang penting.
Dalam hal efek praktis, TANGOFLUX mengungguli model lain dalam kualitas pembuatan audio, menampilkan suara peristiwa yang lebih jernih, reproduksi urutan peristiwa yang lebih baik, dan kualitas audio yang lebih tinggi. Dengan membandingkan beberapa contoh, pengguna secara intuitif dapat merasakan keunggulan TANGOFLUX dalam pembuatan audio.
Kata petunjuk: Suara siulan manusia yang merdu dan kicau burung yang alami hidup berdampingan secara harmonis, dan efek yang dihasilkan adalah sebagai berikut:
Dengan munculnya teknologi baru ini, prospek penerapan pembuatan teks-ke-audio menjadi semakin luas, dan mungkin memainkan peran penting dalam produksi film dan televisi, efek suara game, dan bidang lainnya di masa depan.
Pintu masuk proyek: https://tangoflux.github.io/
Highlight:
TANGOFLUX adalah model pembuatan audio teks efisien yang dapat menghasilkan audio berkualitas tinggi berdurasi 30 detik dalam 3,7 detik.
Kerangka kerja CLAP-Ranked Preference Optimization (CRPO) diusulkan untuk mengoptimalkan kinerja model dan data preferensi audio.
Semua kode dan model bersumber terbuka, yang bertujuan untuk mempromosikan penelitian dan penerapan pembuatan audio teks.
Secara keseluruhan, kemunculan model TANGOFLUX menandai kemajuan signifikan dalam teknologi pembuatan teks-ke-audio. Fitur-fiturnya yang efisien, berkualitas tinggi, dan sumber terbuka akan mendorong pengembangan lebih lanjut dalam bidang ini dan membawa lebih banyak aplikasi inovatif ke berbagai industri. Kami menantikan penerapan yang lebih luas dan optimalisasi serta peningkatan berkelanjutan TANGOFLUX di masa depan.