Upgrade utama Google Teknologi Suara AI: Dialog 2 menit dan 3 detik generasi, yang sepenuhnya akan mengubah cara interaksi manusia -komputer - artikel AI

Penulis：Eve Cole Waktu Pembaruan：2025-02-15 12:48:02

Teknologi pembuatan suara terbaru Google sekali lagi menyegarkan standar industri. Teknologi terobosan ini tidak hanya menghasilkan percakapan alami hingga 2 menit dalam 3 detik, tetapi juga memastikan koherensi suara dan kinerja kualitas suara di antara banyak speaker. Teknologi ini telah digunakan di beberapa produk Google seperti Gemini Live dan Project Astra, dan mengubah cara orang berinteraksi dengan asisten digital dan alat AI di seluruh dunia.

Selama beberapa tahun terakhir, Google telah berfokus pada penelitian di bidang pembuatan audio. Model yang mereka kembangkan dapat membuat suara alami berkualitas tinggi melalui berbagai metode input seperti teks, kontrol ritme dan suara spesifik. Baru -baru ini, Google telah bekerja sama dengan beberapa tim internal untuk meluncurkan dua fitur penting: Tinjauan Audio NotebookLM dapat mengubah dokumen yang diunggah menjadi percakapan yang jelas;

Terobosan ini didasarkan pada beberapa hasil penelitian sebelumnya dari Google. Dari codec audio neural Soundstream, hingga kerangka pemodelan bahasa audiolm audio, hingga badai, yang dapat menghasilkan lebih dari 30 detik percakapan, Google terus berinovasi di bidang pembuatan suara. Terobosan teknologi terbaru menggunakan codec suara yang lebih efisien yang dapat mengompres audio pada laju bit rendah 600 bit per detik sambil mempertahankan kualitas output.

Untuk mencapai terobosan teknologi ini, Google telah mengembangkan arsitektur transformator khusus yang dapat memproses hierarki informasi secara efisien. Model ini pertama kali terlatih pada ratusan ribu jam data bicara dan kemudian disesuaikan dengan dataset percakapan berkualitas tinggi yang berisi fitur-fitur alami seperti nada jeda dalam percakapan nyata. Untuk memastikan penggunaan teknologi yang bertanggung jawab, Google juga telah mengintegrasikan teknologi synthid untuk menambahkan tanda air ke konten audio yang dihasilkan oleh AI.

Ke depan, Google bekerja untuk meningkatkan kehalusan, kualitas suara model, dan menambahkan kontrol yang lebih rinci. Dikombinasikan dengan serangkaian model Gemini, teknologi ini diharapkan memainkan peran penting dalam meningkatkan pengalaman pendidikan dan aksesibilitas konten, membawa lebih banyak kemungkinan untuk teknologi suara.

Pentingnya teknologi ini tidak hanya dalam peningkatan kinerjanya, tetapi juga dalam pembukaan bab baru untuk interaksi manusia-komputer. Dengan mengubah inovasi teknologi yang kompleks menjadi cara -cara alami yang intuitif untuk berinteraksi, Google meletakkan dasar bagi generasi pengalaman digital berikutnya.

Detail: https://deepmind.google/discover/blog/pushing-the-ffronliers-of-audio-generation/

Teknologi generasi suara Google tidak hanya lompatan teknologi, tetapi juga kemajuan revolusioner dalam interaksi manusia-komputer, membawa kemungkinan tak terbatas ke dunia digital masa depan.