오픈 소스 로컬 실시간 멀티 모달 모델 Moshi : 실시간 음성 생성은 여러 악센트 지원 -AI 기사

저자：Eve Cole 업데이트 시간：2025-02-21 19:25:02

프랑스의 독립적 인 비영리 AI 연구 연구소 인 Kyutai는 최근 Moshi라는 음성 보조원을 발표했으며, 이는 실시간 기본 멀티 모달 기본 모델 기술에서 주요 획기적인 획기적인 획기적인 것으로 나타났습니다. 혁신적인 AI 모델로서, Moshi는 일부 핵심 기능에서 OpenAI의 GPT-4O를 모방 할뿐만 아니라 상당한 초월을 달성하여 음성 상호 작용 기술을위한 새로운 개발 방향을 열어줍니다.

제품 포털 : https://top.aibase.com/tool/moshi-chat

모시의 가장 눈길을 끄는 기능은 훌륭한 감정적 이해와 표현 기술입니다. 이 음성 어시스턴트는 프랑스어를 포함한 여러 언어 변형을 포함하여 다양한 악센트에서 자연스러운 대화를 할 수 있습니다. 더 놀라운 점은 모시가 오디오 입력 및 음성 출력을 동시에 처리 할 수 있다는 것입니다. 텍스트 사고의 원활한 의사 소통을 유지하면서 70 개의 서로 다른 인간 감정과 말하기 스타일을 표시하여 인간 컴퓨터 상호 작용의 자연과 친밀감을 크게 향상시킵니다. .

기술 구현 측면에서 Moshi는 진정한 실시간 상호 작용을 가능하게하는 고유 한 듀얼 오디오 스트리밍 메커니즘을 채택합니다. 이 획기적인 기능은 Kyutai가 개발 한 70 억 개의 매개 변수 언어 모델 인 Helium의 강력한 지원으로 뒷받침됩니다.

Kyutai 팀은 Moshi의 음성 품질과 사용자 경험을 보장하기 위해 엄격한 미세 조정 프로세스를 수행했습니다. TTS (Text-To-Stypeech) 기술을 통해이 팀은 10 만 "음성 스타일"합성 대화를 전환하고 다른 TTS 모델에서 생성 된 합성 데이터를 사용하여 교육을 받았습니다. 이러한 노력으로 궁극적으로 Moshi는 놀라운 200ms 엔드 투 엔드 대기 시간을 달성하여 사용자에게 거의 영향을 미치는 응답 경험을 제공했습니다.

Kyutai는 다른 사용자의 요구를 고려하여 가벼운 버전의 MoShi를 개발했습니다. 이 최적화 된 버전은 MacBook 또는 Consumer GPU에서 원활하게 실행될 수 있으므로 사용 장벽을 크게 줄이고 더 넓은 사용자 기반 이이 고급 음성 상호 작용 기술을 경험할 수 있습니다.

Kyutai Laboratory의 최신 성과로서 Moshi는 AI 음성 기술의 큰 잠재력을 보여줄뿐만 아니라 미래의 인간-컴퓨터 상호 작용 방법에 대한 새로운 가능성을 제공합니다. 감정적 이해에서 다국어 지원, 실시간 상호 작용에서 가벼운 배치에 이르기까지 Moshi의 모든 기능은 AI 연구 분야에서 Kyutai의 혁신적인 정신과 기술적 강점을 반영합니다.