OuteTTS-0.1-350M: Metode sintesis text-to-speech baru dengan kloning ucapan tanpa sampel

Penulis：Eve Cole Waktu Pembaruan：2024-11-29 14:40:33

Laporan editor downcode: Oute AI baru-baru ini merilis metode sintesis text-to-speech barunya-OuteTTS-0.1-350M. Model TTS ini berdasarkan arsitektur LLaMa, dengan arsitektur sederhana dan WavTokenizer yang efisien, mencapai sintesis ucapan berkualitas tinggi tanpa memerlukan adaptor eksternal. Tidak hanya memiliki kemampuan kloning suara tanpa sampel, ia juga kompatibel dengan llama.cpp, sehingga ideal untuk aplikasi real-time. Peluncuran OuteTTS-0.1-350M tentunya membawa terobosan baru dalam perkembangan teknologi text-to-speech.

Baru-baru ini, Oute AI merilis metode sintesis text-to-speech baru yang disebut OuteTTS-0.1-350M. Pendekatan ini memanfaatkan pemodelan bahasa murni tanpa memerlukan adaptor eksternal atau arsitektur kompleks, sehingga memberikan pendekatan TTS yang disederhanakan. OuteTTS-0.1-350M didasarkan pada arsitektur LLaMa dan menggunakan WavTokenizer untuk menghasilkan token audio secara langsung, menjadikan prosesnya lebih efisien.

Model ini memiliki fitur kloning suara tanpa sampel, yang hanya memerlukan beberapa detik audio referensi untuk mereplikasi suara baru. OuteTTS-0.1-350M dirancang untuk kinerja perangkat dan kompatibel dengan llama.cpp, menjadikannya ideal untuk aplikasi waktu nyata. Meskipun model ini memiliki ukuran parameter yang relatif kecil (350 juta), kinerjanya sebanding dengan sistem TTS yang lebih besar dan lebih kompleks.

Aksesibilitas dan efisiensi OuteTTS-0.1-350M membuatnya cocok untuk berbagai aplikasi, termasuk asisten yang dipersonalisasi, buku audio, dan pelokalan konten. Oute AI dirilis di bawah lisensi CC-BY, yang mendorong eksperimen dan integrasi lebih lanjut ke dalam berbagai proyek, mendemokratisasi teknologi TTS yang canggih.

Peluncuran OuteTTS-0.1-350M menandai langkah maju yang penting dalam teknologi text-to-speech, memanfaatkan arsitektur yang disederhanakan untuk menghasilkan sintesis ucapan berkualitas tinggi dengan persyaratan komputasi minimal. Ini mengintegrasikan arsitektur LLaMa, menggunakan WavTokenizer, dan mampu melakukan kloning ucapan tanpa sampel tanpa adaptor yang rumit, yang membedakannya dari model TTS tradisional.

Alamat: https://www.outeai.com/blog/OuteTTS-0.1-350M

Secara keseluruhan, OuteTTS-0.1-350M membawa kemungkinan baru ke bidang text-to-speech dengan efisiensi, kesederhanaan dan aksesibilitasnya, dan kinerjanya patut dinantikan dalam aplikasi masa depan. Redaksi Downcodes akan terus memperhatikan perkembangan model ini selanjutnya.