Baru-baru ini, para peneliti di Universitas Fudan telah membuat terobosan besar dan berhasil meluncurkan model bahasa pidato berskala besar yang baru, SpeechGPT-Gen. Model ini memiliki ukuran parameter 8 miliar dan memiliki kinerja luar biasa di bidang text-to-speech, konversi ucapan, dan dialog suara. Efisiensinya yang tinggi berasal dari metode pembuatan rantai informasi yang inovatif. Penelitian ini menetapkan tonggak baru bagi pengembangan teknologi kecerdasan buatan suara dan memberikan dukungan teknis yang kuat untuk aplikasi yang lebih cerdas di masa depan.
Webmaster Home melaporkan bahwa para peneliti di Universitas Fudan meluncurkan SpeechGPT-Gen, model bahasa skala besar dengan parameter 8B dengan efisiensi tinggi dalam pemodelan informasi semantik dan persepsi. Model ini menunjukkan kinerja dan skalabilitas yang sangat baik dalam berbagai aplikasi seperti zero-shot text-to-speech, konversi ucapan, dan dialog suara. Metode Chain of Information Generation (CoIG) diadopsi untuk memecahkan masalah inefisiensi dalam metode pembangkitan ucapan tradisional. Selain itu, model ini menggunakan informasi semantik sebagai apriori dalam pencocokan aliran, yang meningkatkan efisiensi dan kualitas keluaran model.
Kemunculan model SpeechGPT-Gen menandai kemajuan signifikan dalam teknologi kecerdasan buatan ucapan. Efisiensi dan skalabilitasnya yang tinggi memberikan kemungkinan untuk lebih banyak skenario penerapan di masa depan. Penerapan dan pengembangan lebih lanjut di berbagai bidang patut dinantikan. Saya yakin hasil penelitian yang lebih mengejutkan akan muncul di masa depan.