Open Source Lokal Model Multimodal Lokal Lokal Moshi: Generasi Suara Real-Time Mendukung banyak aksen-artikel AI

Penulis：Eve Cole Waktu Pembaruan：2025-02-21 19:25:02

Kyutai, laboratorium penelitian AI nirlaba independen di Prancis, baru-baru ini merilis asisten suara bernama Moshi, yang menandai terobosan besar dalam teknologi model dasar multimodal asli real-time. Sebagai model AI revolusioner, Moshi tidak hanya meniru Openai GPT-4O dalam beberapa fungsi inti, tetapi juga mencapai transendensi yang signifikan, membuka arah pengembangan baru untuk teknologi interaksi suara.

Portal Produk: https://top.aibase.com/tool/moshi-chat

Fitur Moshi yang paling menarik adalah pemahaman emosional dan keterampilan ekspresi yang sangat baik. Asisten suara ini mampu melakukan percakapan alami dalam berbagai aksen, termasuk beberapa varian bahasa, termasuk bahasa Prancis. Yang lebih menakjubkan adalah bahwa Moshi dapat memproses input audio dan output suara pada saat yang sama, dan sambil mempertahankan komunikasi pemikiran teks yang lancar, itu menampilkan 70 emosi dan gaya berbicara manusia yang berbeda, sangat meningkatkan kealamian dan afinitas interaksi manusia-komputer-komputer manusia .

Dalam hal implementasi teknis, Moshi mengadopsi mekanisme streaming audio ganda yang unik yang memungkinkan interaksi real-time yang benar. Fitur terobosan ini didukung oleh dukungan yang kuat dari helium, model bahasa parameter 7 miliar yang dikembangkan oleh Kyutai.

Untuk memastikan kualitas suara dan pengalaman pengguna Moshi, tim Kyutai melakukan proses penyempurnaan yang ketat. Melalui teknologi Text-to-Speech (TTS), tim mengkonversi 100.000 percakapan sintetis "gaya lisan" dan dilatih menggunakan data sintetis yang dihasilkan oleh model TTS lain. Upaya-upaya ini pada akhirnya mengakibatkan Moshi mencapai latensi end-to-end 200ms yang luar biasa, memberikan pengguna pengalaman respons yang hampir instan.

Mempertimbangkan kebutuhan pengguna yang berbeda, Kyutai juga telah mengembangkan versi Moshi yang ringan. Versi yang dioptimalkan ini dapat berjalan dengan lancar di MacBook atau GPU konsumen, sangat mengurangi penghalang untuk digunakan dan memungkinkan basis pengguna yang lebih luas untuk mengalami teknologi interaksi suara canggih ini.

Sebagai pencapaian terbaru dari Laboratorium Kyutai, Moshi tidak hanya menunjukkan potensi besar teknologi suara AI, tetapi juga memberikan kemungkinan baru untuk metode interaksi manusia-komputer di masa depan. Dari pemahaman emosional hingga dukungan multibahasa, dari interaksi real-time hingga penyebaran yang ringan, setiap fitur Moshi mencerminkan semangat inovatif dan kekuatan teknis Kyutai di bidang penelitian AI.