Местная мультимодальная модель в реальном времени с открытым исходным кодом Moshi: Генерация голоса в реальном времени поддерживает несколько акцентов-статьи ИИ

Автор：Eve Cole Время обновления：2025-02-21 19:25:02

Kyutai, независимая некоммерческая исследовательская лаборатория AI во Франции, недавно выпустила голосовой помощник по имени Moshi, которая отмечает серьезный прорыв в технологии нативных мультимодальных модели в реальном времени в режиме реального времени. Как революционная модель ИИ, Моши не только подражает GPT-4O Openai в некоторых основных функциях, но и достигает значительной трансцендентности, открывая новые направления разработки для технологии голосового взаимодействия.

Портал продукта: https://top.aibase.com/tool/moshi-chat

Самая привлекательная особенность Моши-ее превосходное эмоциональное понимание и навыки выражения. Этот голосовой помощник способен к естественным разговорам в различных акцентах, включая множество языковых вариантов, включая французский. Что еще более удивительно, так это то, что Moshi может одновременно обрабатывать аудио ввод и голосовой выход, и, сохраняя плавное общение текстового мышления, он отображает 70 различных человеческих эмоций и стилей разговоров, значительно улучшая естественность и сродство взаимодействия человека с компьютером .

С точки зрения технической реализации, Моши принимает уникальный механизм потоковой передачи двойного звука, который обеспечивает истинное взаимодействие в реальном времени. Эта прорывная функция поддерживается сильной поддержкой гелия, 7 миллиардов языков параметров, разработанной Kyutai.

Чтобы обеспечить качество голоса Moshi и пользовательский опыт, команда Kyutai провела строгий процесс точной настройки. Благодаря технологии текста в речь (TTS) команда преобразовала 100 000 синтетических разговоров на 100 000 «разговорного стиля» и обучена с использованием синтетических данных, генерируемых другой моделью TTS. Эти усилия в конечном итоге привели к тому, что Moshi достиг удивительной 200 мс сквозной задержки, предоставив пользователям почти жесткий опыт ответа.

Учитывая потребности разных пользователей, Kyutai также разработал легкую версию Moshi. Эта оптимизированная версия может работать плавно на MacBook или потребительских графических процессорах, что значительно сокращает барьер для использования и позволяя более широкой пользовательской базе испытать эту расширенную технологию голосового взаимодействия.

Как последнее достижение лаборатории Kyutai, Moshi не только демонстрирует огромный потенциал технологии Voice AI, но и предоставляет новые возможности для будущих методов взаимодействия человека с компьютером. От эмоционального понимания до многоязычной поддержки, от взаимодействия в реальном времени до легкого развертывания, каждая особенность Moshi отражает инновационный дух Кьютай и техническую силу в области исследований искусственного интеллекта.