Kyutai ซึ่งเป็นห้องปฏิบัติการวิจัย AI ที่ไม่แสวงหาผลกำไรที่ไม่แสวงหาผลกำไรในฝรั่งเศสเพิ่งเปิดตัวผู้ช่วยเสียงชื่อ Moshi ซึ่งนับเป็นความก้าวหน้าครั้งสำคัญในเทคโนโลยีโมเดลพื้นฐานแบบหลายรูปแบบแบบเรียลไทม์ ในฐานะที่เป็นแบบจำลอง AI ที่ปฏิวัติวงการ Moshi ไม่เพียง แต่เลียนแบบ GPT-4O ของ Openai ในฟังก์ชั่นหลักบางอย่างเท่านั้น
พอร์ทัลผลิตภัณฑ์: https://top.aibase.com/tool/moshi-chat
คุณลักษณะที่สะดุดตาที่สุดของ Moshi คือความเข้าใจทางอารมณ์และทักษะการแสดงออกที่ยอดเยี่ยม ผู้ช่วยเสียงคนนี้มีความสามารถในการสนทนาตามธรรมชาติในสำเนียงที่หลากหลายรวมถึงภาษาหลายภาษารวมถึงภาษาฝรั่งเศส สิ่งที่น่าอัศจรรย์ยิ่งกว่านั้นคือ Moshi สามารถประมวลผลอินพุตเสียงและเอาต์พุตเสียงในเวลาเดียวกันและในขณะที่ยังคงการสื่อสารที่ราบรื่นของการคิดข้อความมันจะแสดงอารมณ์ของมนุษย์ 70 และรูปแบบการพูดการปรับปรุงความเป็นธรรมชาติและความสัมพันธ์ของการมีปฏิสัมพันธ์กับมนุษย์ .
ในแง่ของการใช้งานทางเทคนิค Moshi ใช้กลไกการสตรีมเสียงคู่ที่ไม่เหมือนใครซึ่งช่วยให้การโต้ตอบแบบเรียลไทม์จริง คุณสมบัติการพัฒนานี้ได้รับการสนับสนุนโดยการสนับสนุนที่แข็งแกร่งของฮีเลียมแบบจำลองภาษาพารามิเตอร์ 7 พันล้านที่พัฒนาโดย Kyutai
เพื่อให้แน่ใจว่าคุณภาพเสียงและประสบการณ์ของผู้ใช้ของ Moshi ทีม Kyutai ได้ดำเนินการปรับแต่งอย่างละเอียด ผ่านเทคโนโลยี Text-to-Speech (TTS) ทีมได้แปลงการสนทนาสังเคราะห์ "สไตล์การพูด" 100,000 ครั้งและผ่านการฝึกอบรมโดยใช้ข้อมูลสังเคราะห์ที่สร้างขึ้นโดยรุ่น TTS อื่น ในที่สุดความพยายามเหล่านี้ส่งผลให้ Moshi ได้รับความล่าช้าในการตอบสนองแบบ end-to-end 200ms ที่น่าตื่นตาตื่นใจทำให้ผู้ใช้ได้รับประสบการณ์การตอบสนองที่ใกล้เข้ามาใกล้
เมื่อพิจารณาถึงความต้องการของผู้ใช้ที่แตกต่างกัน Kyutai ได้พัฒนา Moshi รุ่นที่มีน้ำหนักเบา รุ่นที่ได้รับการปรับปรุงนี้สามารถทำงานได้อย่างราบรื่นบน MacBook หรือ GPU ผู้บริโภคลดอุปสรรคในการใช้และช่วยให้ฐานผู้ใช้ที่กว้างขึ้นได้สัมผัสกับเทคโนโลยีการโต้ตอบด้วยเสียงขั้นสูงนี้
ในฐานะที่เป็นความสำเร็จครั้งล่าสุดของห้องปฏิบัติการ Kyutai Moshi ไม่เพียง แต่แสดงให้เห็นถึงศักยภาพที่ยิ่งใหญ่ของเทคโนโลยีเสียง AI แต่ยังให้ความเป็นไปได้ใหม่สำหรับวิธีการปฏิสัมพันธ์ระหว่างมนุษย์กับคอมพิวเตอร์ในอนาคต ตั้งแต่การทำความเข้าใจทางอารมณ์ไปจนถึงการสนับสนุนหลายภาษาตั้งแต่การมีปฏิสัมพันธ์แบบเรียลไทม์ไปจนถึงการปรับใช้ที่มีน้ำหนักเบาทุกคุณสมบัติของ Moshi สะท้อนให้เห็นถึงจิตวิญญาณที่เป็นนวัตกรรมและความแข็งแกร่งทางเทคนิคของ Kyutai ในสาขาการวิจัย AI