Modèle multimodal en temps réel local open source Moshi: la génération de voix en temps réel prend en charge plusieurs accents - articles de l'IA

Auteur：Eve Cole Date de mise à jour：2025-02-21 19:25:02

Kyutai, un laboratoire indépendant de recherche sur l'IA à but non lucratif en France, a récemment publié un assistant vocal appelé Moshi, qui marque une percée majeure dans la technologie de base multimodale de base indigène en temps réel. En tant que modèle d'IA révolutionnaire, Moshi imite non seulement le GPT-4O d'OpenAI dans certaines fonctions de base, mais réalise également une transcendance significative, ouvrant de nouvelles directions de développement pour la technologie d'interaction vocale.

Portail de produit: https://top.aibase.com/tool/moshi-chat

La caractéristique la plus accrocheuse de Moshi est son excellente compréhension émotionnelle et compétences d'expression. Cet assistant vocal est capable de conversations naturelles dans une variété d'accents, y compris plusieurs variantes de langue, y compris le français. Ce qui est encore plus étonnant, c'est que Moshi peut traiter les entrées audio et la sortie vocale en même temps, et tout en maintenant la communication fluide de la pensée de texte, il affiche 70 émotions humaines et styles de parole différents, améliorant considérablement le naturel et l'affinité de l'interaction humaine-ordinateur .

En termes de mise en œuvre technique, Moshi adopte un mécanisme de streaming audio double unique qui permet une véritable interaction en temps réel. Cette fonction de percée est soutenue par le fort soutien de l'hélium, un modèle de langue de paramètres de 7 milliards développé par Kyutai.

Pour assurer la qualité de la voix et l'expérience utilisateur de Moshi, l'équipe de Kyutai a effectué un processus de réglage fin rigoureux. Grâce à la technologie du texte à la dissection (TTS), l'équipe a converti des conversations synthétiques de 100 000 "style parlé" et formée à l'aide de données synthétiques générées par un autre modèle TTS. Ces efforts ont finalement abouti à Moshi à réaliser une incroyable latence de bout en bout de 200 ms, offrant aux utilisateurs une expérience de réponse presque instante.

Compte tenu des besoins des différents utilisateurs, Kyutai a également développé une version légère de Moshi. Cette version optimisée peut fonctionner correctement sur MacBook ou GPU grand public, réduisant considérablement la barrière à utiliser et permettant à une base d'utilisateurs plus large de vivre cette technologie avancée d'interaction vocale.

En tant que dernière réalisation du laboratoire Kyutai, Moshi démontre non seulement l'énorme potentiel de la technologie vocale de l'IA, mais offre également de nouvelles possibilités pour les futures méthodes d'interaction des ordinateurs humains. De la compréhension émotionnelle au soutien multilingue, de l'interaction en temps réel au déploiement léger, chaque caractéristique de Moshi reflète l'esprit innovant de Kyutai et la force technique dans le domaine de la recherche sur l'IA.