Израильская компания запускает Whisper Medusa, модель распознавания речи с открытым исходным кодом, которая работает на 50% быстрее

Автор：Eve Cole Время обновления：2024-12-15 17:16:01

Израильская компания по искусственному интеллекту aiOla недавно выпустила модель распознавания речи с открытым исходным кодом под названием Whisper Medusa. Модель достигла значительного прорыва в скорости, а скорость ее обработки на 50% выше, чем у модели OpenAI Whisper. Этот прорыв привлек широкое внимание в отрасли, и его суть заключается в улучшенном архитектурном проектировании и инновационных методах обучения. Whisper Medusa не только быстрее, но и сохраняет высокий уровень точности и стабильности, открывая новые возможности для развития технологий распознавания речи.

Израильская компания искусственного интеллекта aiOla недавно совершила крупный прорыв в области технологий распознавания речи и запустила модель распознавания речи с открытым исходным кодом под названием Whisper Medusa. Скорость обработки этой новой модели на 50% выше, чем у модели OpenAI Whisper, которая привлекла широкое внимание в отрасли.

Основная инновация Whisper Medusa — улучшенный архитектурный дизайн. aiOla модифицировала исходную архитектуру Whisper и представила механизм внимания с несколькими головами. Этот механизм позволяет модели одновременно фокусироваться на информации из разных подпространств представления, используя параллельно несколько голов внимания. Это нововведение позволяет модели прогнозировать десять токенов одновременно вместо традиционного одного токена, что значительно повышает скорость прогнозирования речи и время генерации.

Стоит отметить, что Whisper Medusa увеличивает скорость без ущерба для производительности. Это связано с тем, что его базовая система по-прежнему основана на Whisper, обеспечивая точность и стабильность модели. В процессе обучения aiOla использует метод машинного обучения, называемый слабым контролем. В частности, они заморозили основные компоненты Whisper и использовали аудиотранскрипции, сгенерированные моделью, в качестве меток для обучения дополнительных модулей прогнозирования токенов. Этот инновационный метод обучения еще больше повышает эффективность и точность обучения модели.

Выпуск Whisper Medusa с открытым исходным кодом может оказать глубокое влияние на развитие технологии распознавания речи. Он не только предоставляет исследователям и разработчикам новый мощный инструмент, но также может стимулировать разработку более быстрых и эффективных приложений для обработки речи. В условиях растущего спроса на голосовое взаимодействие этот технологический прорыв, несомненно, откроет новые возможности применения искусственного интеллекта в сфере распознавания речи.

С запуском Whisper Medusa мы можем ожидать появления более инновационных приложений, основанных на этой модели, от умных помощников до перевода в реальном времени и систем голосового управления, все из которых в результате могут значительно улучшить производительность. Этот прогресс не только знаменует собой важную веху в технологии распознавания речи, но и создает более эффективный и плавный план будущего взаимодействия между искусственным интеллектом и людьми.

Адрес проекта: https://github.com/aiola-lab/whisper-medusa.

обнимающее лицо: https://huggingface.co/aiola/whisper-medusa-v1

Открытый исходный код и высокая производительность Whisper Medusa указывают на то, что технология распознавания речи откроет новую волну развития, обеспечивая более плавную и эффективную работу различных голосовых приложений и способствуя применению технологий искусственного интеллекта в большем количестве областей. Мы с нетерпением ожидаем появления новых инновационных приложений, основанных на этой модели.