Modelo multimodal local de código abierto Moshi: la generación de voz en tiempo real admite múltiples acentos-AI Artículos

Autor：Eve Cole Fecha de actualización：2025-02-21 19:25:02

Kyutai, un laboratorio independiente de investigación de IA sin fines de lucro en Francia, lanzó recientemente un asistente de voz llamado Moshi, que marca un gran avance en la tecnología de modelo básico multimodal nativo en tiempo real. Como modelo de IA revolucionario, Moshi no solo imita el GPT-4O de Opense en algunas funciones básicas, sino que también logra una trascendencia significativa, abriendo nuevas direcciones de desarrollo para la tecnología de interacción de voz.

Portal de productos: https://top.aibase.com/tool/moshi-chat

La característica más llamativa de Moshi es su excelente comprensión emocional y habilidades de expresión. Este asistente de voz es capaz de conversaciones naturales en una variedad de acentos, incluidas múltiples variantes de idiomas, incluido el francés. Lo que es aún más sorprendente es que Moshi puede procesar la entrada de audio y la salida de voz al mismo tiempo, y mientras mantiene la comunicación suave del pensamiento de texto, muestra 70 emociones humanas diferentes y estilos de habla, mejorando en gran medida la naturalidad y la afinidad de la interacción humana-computadora .

En términos de implementación técnica, Moshi adopta un mecanismo de transmisión de audio dual único que permite una verdadera interacción en tiempo real. Esta característica innovadora es compatible con el fuerte soporte de Helium, un modelo de lenguaje de parámetros de 7 mil millones desarrollado por Kyutai.

Para garantizar la calidad de voz y la experiencia del usuario de Moshi, el equipo de Kyutai realizó un riguroso proceso de ajuste. A través de la tecnología de texto a voz (TTS), el equipo convirtió 100,000 conversaciones sintéticas de "estilo hablado" y entrenado utilizando datos sintéticos generados por otro modelo TTS. Estos esfuerzos finalmente resultaron en que Moshi logró una sorprendente latencia de 200 ms de extremo a extremo, proporcionando a los usuarios una experiencia de respuesta casi instantánea.

Teniendo en cuenta las necesidades de diferentes usuarios, Kyutai también ha desarrollado una versión ligera de Moshi. Esta versión optimizada puede ejecutarse sin problemas en MacBook o GPU de consumo, reduciendo en gran medida la barrera de usar y permitiendo una base de usuarios más amplia para experimentar esta tecnología de interacción de voz avanzada.

Como el último logro del Laboratorio Kyutai, Moshi no solo demuestra el enorme potencial de la tecnología de voz de IA, sino que también proporciona nuevas posibilidades para los futuros métodos de interacción humano-computadora. Desde la comprensión emocional hasta el apoyo multilingüe, desde la interacción en tiempo real hasta la implementación ligera, cada característica de Moshi refleja el espíritu innovador y la fuerza técnica de Kyutai en el campo de la investigación de IA.