Model pidato real-time terbaru yang dirilis oleh Perusahaan Doubao telah mencapai kemajuan terobosan di bidang dialog Tiongkok. Model ini sepenuhnya diluncurkan di Aplikasi Doubao versi Tahun Baru 7.2.0. Model ini secara mendalam mengintegrasikan pemahaman dan pembangkitan ucapan untuk menciptakan sistem dialog ucapan ujung ke ujung, yang secara signifikan meningkatkan ekspresi ucapan, kontrol, dan penerimaan emosional. Model ini juga memiliki fungsi seperti latensi rendah dan menyela percakapan kapan saja, sehingga memberikan lebih banyak manfaat kepada pengguna. Pengalaman interaktif yang alami dan lancar. Pembaruan ini juga menghadirkan fungsi panggilan suara real-time baru, yang mendukung penyesuaian fleksibel pada detail percakapan, peniruan berbagai suara dan dialek, dan bahkan kemampuan menyanyikan beberapa lagu, yang semakin meningkatkan realisme dialog manusia-mesin.
Baru-baru ini, Perusahaan Doubao mengumumkan peluncuran model ucapan real-time terbarunya, yang diklaim telah mencapai "keunggulan" dalam dialog Tiongkok, yang menandai peningkatan signifikan dalam kemampuan dialog AI. Model ini sepenuhnya terbuka di Aplikasi Doubao (nomor versi 7.2.0 Edisi Tahun Baru), memberikan pengalaman komunikasi suara yang lebih kaya dan realistis kepada pengguna.
Menurut laporan, model besar pidato real-time Doubao mewujudkan integrasi mendalam antara pemahaman dan generasi ucapan, membentuk sistem dialog ucapan ujung ke ujung. Terobosan teknologi ini memungkinkan model untuk bekerja dengan sangat baik dalam hal ekspresi suara, kontrol, dan penerimaan emosional. Model ini memiliki latensi rendah dan kemampuan untuk menyela percakapan kapan saja, yang sangat meningkatkan pengalaman interaktif pengguna. Para pejabat menyatakan bahwa teknologi ini tidak hanya meningkatkan "IQ", tetapi juga memiliki kecerdasan emosional online, yang memungkinkannya untuk lebih memahami dan mengekspresikan emosi.
Pembaruan ini juga mencakup fungsi panggilan suara real-time, yang mengandalkan model besar terbaru Doubao dan dapat secara fleksibel menyesuaikan detail seperti ritme percakapan, suara, volume, dan suara napas dalam berbagai skenario. Selain itu, fungsi suara baru juga dapat meniru suara yang berbeda, mendukung berbagai dialek dan percakapan bahasa Inggris, bahkan memiliki kemampuan untuk menyanyikan beberapa lagu. Semua ini telah mengangkat realisme dialog manusia-mesin ke tingkat yang baru, hampir mencapai titik di mana "sulit membedakan antara manusia dan mesin".
Tim R&D Doubao menyatakan bahwa teknologi baru ini didasarkan pada kerangka kerja end-to-end dan menggunakan metode asli untuk mengintegrasikan pola ucapan dan teks secara mendalam untuk pemodelan terpadu. Desain seperti itu tidak hanya mengoptimalkan proses pengenalan dan pembuatan ucapan, namun juga memberi AI “jiwa” yang lebih kaya sehingga dapat berkomunikasi lebih baik dengan manusia.
Peluncuran model besar suara real-time Doubao di bidang dialog suara Tiongkok akan memberikan pengalaman interaktif yang belum pernah terjadi sebelumnya kepada pengguna dan mendorong pengembangan teknologi suara cerdas.
Peluncuran model suara real-time Doubao menandai kemajuan signifikan dalam teknologi interaksi suara cerdas, dan kinerjanya yang luar biasa di bidang dialog Tiongkok sangat menarik. Di masa depan, dengan terus berkembangnya teknologi, saya yakin model pidato serupa akan membawa lebih banyak kemudahan dan kejutan dalam kehidupan masyarakat.