Aplikasi Doubao meluncurkan mode suara baru, memungkinkan nyanyian dan permainan peran sebelum GPT-4o - artikel AI

Penulis：Eve Cole Waktu Pembaruan：2025-01-28 14:00:03

Aplikasi Doubao merilis model suara besar "end-to-end" terbaru pada tanggal 20 Januari 2025, membuat pembaruan besar pada fungsi panggilan suara real-time. Pembaruan ini menandai bahwa Doubao telah membuat kemajuan signifikan di bidang interaksi suara. Doubao tidak lagi bergantung pada solusi kaskade ASR, LLM, dan TTS tradisional, namun mengintegrasikan pengenalan, pemahaman, dan pembangkitan ucapan ke dalam model yang sama, sehingga menghasilkan pengalaman yang lebih lancar dan lebih baik. pengalaman interaksi suara yang cerdas. Fokus pembaruan ini adalah untuk meningkatkan antropomorfisme interaksi suara, sehingga AI dapat lebih memahami dan merespons emosi manusia.

Pada tanggal 20 Januari 2025, Aplikasi Doubao secara resmi merilis model suara "end-to-end" terbarunya dan melakukan pembaruan penting pada fungsi panggilan suara real-time. Kemajuan ini menandai lompatan maju lainnya bagi Doubao di bidang interaksi suara, melampaui solusi kaskade ASR (pengenalan ucapan otomatis), LLM (model bahasa besar) dan TTS (Tensheng Audio) sebelumnya, yang mengintegrasikan pengenalan ucapan, pemahaman, dan generasi dalam model yang sama.

Setelah diuji dengan "Smart Emergence", sorotan terbesar dari versi baru Doubao adalah ia memiliki kemampuan ekspresi dan keluaran emosi seperti manusia, meningkatkan kelancaran dan tingkat kecerdasan dialog. Secara khusus, mode "Soul Singer" dan "Various Master" memungkinkan Doubao tidak hanya bernyanyi, tetapi juga melakukan permainan peran yang kaya, menjadi favorit baru untuk interaksi pengguna. Misalnya, ketika pengguna meminta Doubao untuk meniru suara selebritas Yu Shuxin, Doubao tidak hanya berhasil meniru nada suara karakter tersebut, tetapi juga dengan bercanda mengekspresikan kepribadian uniknya.

Yang lebih penting lagi adalah Doubao mampu mengimprovisasi lagu dalam percakapan alami tanpa memerlukan instruksi rumit atau petunjuk profesional. Pengguna bisa meminta Doubao bernyanyi sesuka hati, bahkan bisa menentukan tema liriknya. Meskipun penampilan Doubao terkadang membuat kesalahan kecil, kecepatan reaksi dan kemampuan improvisasinya sangat luar biasa, menunjukkan kemampuan antropomorfiknya yang kuat.

Selain itu, dua mode kepribadian Doubao yang baru ditambahkan, yaitu "tas kecil" dan "master berlebihan", juga menghadirkan kesegaran bagi pengguna. Pola kepribadian ini memungkinkan Doubao untuk mengekspresikan emosi dan gaya yang berbeda dalam situasi yang berbeda, sehingga meningkatkan kesenangan dan realisme interaksi.

Saat ini, dengan semakin berkembangnya teknologi interaksi suara, pembaruan Doubao ini tidak hanya memperluas skenario penerapan AI pada persahabatan emosional, konseling psikologis, dan bidang lainnya, tetapi juga mendekatkan kemampuan komunikasi emosional AI dengan manusia. Transformasi ini tidak diragukan lagi akan memungkinkan Doubao menempati posisi di pasar yang sangat kompetitif dan memimpin pengembangan interaksi AI di masa depan.

Pembaruan Aplikasi Doubao ini tidak hanya mencapai terobosan dalam teknologi, tetapi yang lebih penting, mencapai lompatan kualitatif dalam pengalaman pengguna, memberikan arah baru untuk pengembangan interaksi AI di masa depan, dan patut dinantikan lebih banyak inovasi selanjutnya. ke atas.