Французская исследовательская лаборатория AI с открытым исходным кодом недавно запустила мультимодальную модель под названием Moshi. Выпуск Моши демонстрирует огромный потенциал технологии искусственного интеллекта в отношении голосового взаимодействия и рассуждений в режиме реального времени, принося новый опыт энтузиастам ИИ по всему миру.
Рано утром 4 июля Кьютай официально объявил о рождении Моши на своем официальном веб -сайте. Эта модель имеет такую же функциональность, что и GPT-4O OpenAI, и может выполнять вопросы и ответы в реальном времени через голос. Однако, в отличие от голосового режима GPT-4O, который должен подождать, пока не будет полностью открыт, Moshi был открыт для публики, что делает его премьерой на рынке.
Основные функции Moshi включают ее мультимодальную способность, то есть он может слушать голосовые вопросы пользователя и проводить ответы в режиме реального времени. Кроме того, голосовой режим Moshi был полностью открыт, и по сравнению с планом осеннего запуска GPT-4O, Moshi предоставляет пользователям более быстрый опыт. Что еще более важно, у Моши нет региональных ограничений и может использоваться пользователями по всему миру и поддерживает мобильные телефоны.
Kyutai также планирует открытый Source Moshi и опубликует код, веса модели и документы.
Выпуск Моши, несомненно, является смелой попыткой технологии ИИ. Он не только способен слушать и говорить, но и показывать способность видеть в будущем, что заставляет нас ожидать будущего ИИ. Процесс использования Moshi очень прост.
Стоит отметить, что поддержка Моши для мандарина должна быть улучшена, и задавать вопросы на английском языке дадут вам лучший опыт. Кроме того, Moshi не заблокирован и может использоваться непосредственно, где бы вы ни находились, что, несомненно, обеспечивает большое удобство для энтузиастов ИИ по всему миру.
Этот шаг от Kyutai Laboratory также показывает их настойчивость в духе с открытым исходным кодом. Они планируют скоро открыть Моши, опубликовать код, веса модели и статьи, чтобы разработчики и исследователи по всему миру могли участвовать в разработке и оптимизации Моши.
С точки зрения опыта использования, скорость отклика Моши чрезвычайно быстрая, и даже при использовании на национальных маршрутах она может отвечать на вопросы практически без задержки. В настоящее время Moshi в основном поддерживает английский и французский, и поддержка китайского мандарина должна быть улучшена. Процесс регистрации прост, просто отправьте свой адрес электронной почты. Моши демонстрирует способность слушать и говорить, а также может увеличить способность наблюдать в будущем. Антропоморфный тон Моши является одной из основных особенностей, с очень небольшим запахом машины, что делает разговор более естественным и гладким.
Конечно, текущие ответы Моши по -прежнему являются относительно ограниченными и могут предоставить только общий план и резюме. Но с непрерывной итерацией и оптимизацией продуктов мы считаем, что ответ Моши станет более подробным и точным.
Кроме того, выпуск Моши окажет глубокое влияние на индустрию образования. Например, ИИ может предоставить студентам круговые объяснения, что огромно для образования. Мы с нетерпением ждем более похожих продуктов в будущем, поддержке большего количества местных языков и приближают технологии искусственного интеллекта к жизни людей.