Laboratorium Penelitian AI Open Source Prancis Kyutai baru -baru ini meluncurkan model multimodal yang disebut Moshi. Rilis Moshi menunjukkan potensi besar teknologi AI dalam interaksi suara dan penalaran real-time, membawa pengalaman baru bagi penggemar AI di seluruh dunia.
Pada pagi hari 4 Juli, Kyutai secara resmi mengumumkan kelahiran Moshi melalui situs web resminya. Model ini memiliki fungsionalitas yang sama dengan Openai GPT-4O, dan dapat melakukan T&J real-time melalui suara. Namun, tidak seperti mode suara GPT-4O yang perlu menunggu sampai musim gugur dibuka sepenuhnya, Moshi telah terbuka untuk umum, yang menjadikannya pemutaran perdana di pasar.
Fitur utama Moshi termasuk kemampuan multimodalnya, yaitu, ia dapat mendengarkan pertanyaan suara pengguna dan melakukan jawaban inferensi real-time. Selain itu, mode suara Moshi telah sepenuhnya dibuka, dan dibandingkan dengan rencana peluncuran musim gugur GPT-4O, Moshi memberi pengguna pengalaman yang lebih cepat. Lebih penting lagi, Moshi tidak memiliki batasan regional, dan dapat digunakan oleh pengguna di seluruh dunia, dan mendukung ponsel.
Kyutai juga berencana untuk open source moshi, dan akan menerbitkan kode, bobot model dan makalah.
Rilis Moshi tidak diragukan lagi merupakan upaya berani untuk teknologi AI. Itu tidak hanya memiliki kemampuan untuk mendengarkan dan berbicara, tetapi juga dapat menunjukkan kemampuan untuk melihat di masa depan, yang membuat kita menantikan masa depan AI. Proses menggunakan Moshi sangat sederhana.
Perlu disebutkan bahwa dukungan Moshi untuk Mandarin perlu ditingkatkan, dan mengajukan pertanyaan dalam bahasa Inggris akan memberi Anda pengalaman yang lebih baik. Selain itu, Moshi tidak terkunci dan dapat digunakan secara langsung di mana pun Anda berada, yang tidak diragukan lagi memberikan kenyamanan besar bagi penggemar AI di seluruh dunia.
Langkah ini oleh laboratorium Kyutai ini juga menunjukkan kegigihan mereka dalam semangat open source. Mereka berencana untuk segera Source Moshi, menerbitkan kode, bobot model dan makalah, sehingga pengembang dan peneliti di seluruh dunia dapat berpartisipasi dalam pengembangan dan optimasi Moshi.
Dalam hal pengalaman penggunaan, kecepatan respons Moshi sangat cepat, dan bahkan ketika digunakan pada rute nasional, itu dapat menanggapi pertanyaan tanpa penundaan. Saat ini, Moshi terutama mendukung bahasa Inggris dan Prancis, dan dukungan mandarin Cina perlu ditingkatkan. Proses pendaftaran sederhana, cukup kirimkan alamat email Anda. Moshi menunjukkan kemampuan untuk mendengarkan dan berbicara, dan juga dapat meningkatkan kemampuan untuk menonton di masa depan. Nada antropomorfik Moshi adalah salah satu fitur utamanya, dengan bau mesin yang sangat sedikit, yang membuat pengalaman percakapan lebih alami dan halus.
Tentu saja, jawaban Moshi saat ini masih relatif terbatas dan hanya dapat memberikan garis besar dan ringkasan umum. Tetapi dengan iterasi dan optimalisasi produk yang berkelanjutan, kami percaya bahwa jawaban Moshi akan menjadi lebih rinci dan akurat.
Selain itu, rilis Moshi akan berdampak besar pada industri pendidikan. Misalnya, AI dapat memberi siswa penjelasan melingkar, yang sangat besar untuk pendidikan. Kami menantikan lebih banyak produk serupa di masa depan, mendukung lebih banyak bahasa lokal, dan membuat teknologi AI lebih dekat dengan kehidupan orang.