Kilatan! ElevenLabs meluncurkan model dialog suara Flash: hanya penundaan 75 milidetik yang mendukung 32 bahasa

Penulis：Eve Cole Waktu Pembaruan：2024-12-24 17:48:01

ElevenLabs telah merilis model sintesis ucapan baru, Flash, yang saat ini merupakan solusi text-to-speech (TTS) tercepat dengan latensi sangat rendah - hanya 75 milidetik. Perkembangan terobosan ini sangat cocok untuk aplikasi AI percakapan yang memerlukan interaksi real-time, sehingga secara signifikan meningkatkan kelancaran dan kealamian interaksi manusia-komputer. Model Flash tersedia dalam dua versi: Flash v2 (mendukung bahasa Inggris) dan Flash v2.5 (mendukung 32 bahasa). Pengguna dapat merasakannya langsung melalui platform AI percakapan dan API ElevenLabs. Meskipun sedikit lebih rendah dari model Turbo dalam hal kualitas suara dan ekspresi emosional, Flash jelas lebih unggul dalam hal kecepatan dan menjadi yang teratas dalam tes buta.

Model Flash terbagi menjadi dua versi, Flash v2 hanya mendukung bahasa Inggris, dan Flash v2.5 mendukung 32 bahasa. Saat menggunakan kedua model tersebut, pengguna akan menghabiskan 1 poin untuk setiap dua karakter yang mereka hasilkan. Meskipun model Flash sedikit lebih rendah dibandingkan model Turbo dalam hal kualitas suara dan kedalaman emosional, kinerja latensi rendahnya memungkinkannya melampaui model lainnya di kelasnya dalam pengujian buta, menjadikannya pilihan tercepat di kelasnya.

Tim teknis ElevenLabs mengatakan bahwa peluncuran model Flash akan sangat meningkatkan kelancaran dan kealamian interaksi manusia-komputer. Pengembang dapat langsung memanggil ID model "eleven_flash_v2" dan "eleven_flash_v2_5" melalui API. Bahan referensi API khusus dapat ditemukan di situs resmi ElevenLabs. Melalui inovasi ini, ElevenLabs berharap dapat membuka skenario dialog dan interaksi yang lebih berlatensi rendah dan manusiawi.

ElevenLabs juga menyediakan berbagai produk dan solusi, termasuk asisten suara yang disesuaikan, alat produksi audio, dan studio sulih suara, yang dirancang untuk membantu pengguna dan pengembang di berbagai bidang mencapai kreasi audio AI berkualitas tinggi. Selain itu, ElevenLabs juga aktif melakukan penelitian dan pengembangan serta terus meningkatkan tingkat teknis produknya untuk memenuhi kebutuhan pengguna yang terus meningkat.

Highlight:

Latensi model Flash untuk menghasilkan ucapan hanya 75 milidetik, yang cocok untuk asisten suara percakapan berlatensi rendah.

Flash v2.5 mendukung 32 bahasa, dan setiap dua karakter yang dihasilkan oleh pengguna dikenakan biaya 1 poin.

Dalam pengujian buta, model Flash mengungguli produk serupa lainnya, menjadi solusi text-to-speech tercepat.

Secara keseluruhan, model Flash ElevenLabs menghadirkan kemungkinan-kemungkinan baru pada aplikasi AI percakapan dengan latensi sangat rendah dan dukungan multi-bahasa, dan juga menunjukkan bahwa interaksi manusia-komputer akan lebih lancar dan alami di masa depan. Keunggulannya dalam kecepatan menjadikannya salah satu solusi text-to-speech terkemuka di pasar dan patut mendapat perhatian pengembang dan pengguna.