Geely Automobile telah membuat kemajuan terobosan di bidang sintesis ucapan. Model besar HAM-TTS "Xingrui" yang dikembangkan secara independen melampaui tolok ukur industri VALL-E dalam hal kinerja, sehingga menarik perhatian luas. Editor Downcodes akan menjelaskan secara rinci keunggulan inti dan dampak masa depan dari teknologi ini.
Geely Automobile baru-baru ini membuat terobosan besar di bidang sintesis ucapan. Performa model besar HAM-TTS yang dikembangkan secara independen telah melampaui tolok ukur industri VALL-E, sehingga menarik perhatian luas di industri. Model AI besar bernama Xingrui ini telah mencapai peningkatan signifikan dalam indikator-indikator utama seperti akurasi pengucapan, kealamian, dan kesamaan pembicara.
Model HAM-TTS menggunakan teknologi pemodelan akustik hierarkis text-to-speech zero-sample berbasis token, yang sangat meningkatkan pengalaman interaksi pengguna di kokpit pintar. Di bawah kondisi 400 juta parameter yang sama, tingkat kesalahan karakter model HAM-TTS turun 1,5% dibandingkan dengan VALL-E; dan pada model lengkap dengan 800 juta parameter, tingkat kesalahan karakter turun 2,3%. Dalam hal konsistensi gaya, konsistensi nada, dan skor keseluruhan, model HAM-TTS mencapai peningkatan yang signifikan sebesar 10%.
Keunggulan model Xingrui tidak hanya tercermin pada indikator kinerjanya, namun kepraktisannya juga mengesankan. Ia dapat menjaga stabilitas suara pembicara dalam berbagai skenario seperti tautan avatar, navigasi suara, dan siaran berita, serta secara cerdas menyesuaikan nada, intonasi, jeda, dan emosi sesuai dengan situasi. Yang lebih penting lagi adalah model ini dapat beralih antar bahasa dengan lancar, termasuk dialek dan bahasa asing, dan dapat menyelesaikan reproduksi suara hanya dengan input sampel selama 3 detik, yang jauh lebih baik daripada yang biasanya membutuhkan lebih dari 10 detik di industri.
Tim Geely secara inovatif meningkatkan performa model dengan memperkenalkan pemodelan akustik berlapis. Mereka memecahkan masalah pengucapan yang tidak akurat dan memperkenalkan prediktor urutan variabel ruang laten dan perata teks untuk membuat pencocokan teks dan suara menjadi lebih akurat, sehingga ucapan yang disintesis menjadi lebih alami dan lancar.
Terobosan ini tidak hanya menunjukkan kekuatan penelitian dan pengembangan Geely dalam teknologi cerdas, namun juga mencerminkan ambisinya di bidang AI. Sistem model besar AI Xingrui milik Geely telah diperluas ke berbagai arah seperti model besar multi-modal dan model besar bahasa, sehingga meletakkan dasar bagi teknologi mobil pintar. Pada saat yang sama, total kekuatan komputasi awan Geely juga meningkat dari 81 petaflops/detik pada tahun lalu menjadi 102 petaflops/detik, yang menunjukkan investasi berkelanjutan dalam teknologi.
Dengan kesuksesan awal elektrifikasi, terobosan Geely di bidang intelijen telah memberikan ide dan kemungkinan baru bagi perkembangan industri otomotif di masa depan. Hal ini tidak hanya mengubah pemahaman kita tentang produsen mobil tradisional, tetapi juga menunjukkan bahwa kecerdasan akan menjadi bidang persaingan utama dalam industri otomotif masa depan.
Alamat makalah: https://arxiv.org/pdf/2403.05989
Keberhasilan "Xing Rui" Geely menandai kebangkitan industri otomotif Tiongkok di bidang kecerdasan buatan, dan terobosan teknologinya akan sangat mempengaruhi arah pengembangan kecerdasan mobil masa depan. Kami menantikan lebih banyak inovasi dari Geely di bidang kecerdasan buatan!