Редактор Downcodes сообщает: Американский стартап Useful Sensors выпустил модель распознавания речи с открытым исходным кодом под названием Moonshine. Эта модель показывает значительные преимущества с точки зрения эффективности вычислительных ресурсов и скорости обработки. По сравнению с моделью OpenAI Whisper ее скорость улучшена в пять раз. Moonshine предназначен для реализации приложений реального времени на оборудовании с ограниченными ресурсами, а его гибкая архитектура позволяет адаптироваться к различным сценариям применения. Это крупный прорыв для приложений, которым требуется распознавание речи для работы на устройствах с низким энергопотреблением.
В отличие от Whisper, который обрабатывает звук в фиксированные 30-секундные сегменты, Moonshine регулирует время обработки в зависимости от фактической длины звука. Это позволяет ему хорошо работать при обработке более коротких аудиоклипов, сокращая накладные расходы на обработку из-за заполнения нулями.
Moonshine выпускается в двух версиях: маленькая версия Tiny имеет 27,1 миллиона параметров, а большая базовая версия — 61,5 миллиона параметров. Для сравнения, аналогичные модели OpenAI имеют большие параметры: Whisper tiny.en — 37,8 миллиона, а base.en — 72,6 миллиона.
Результаты испытаний показывают, что модель Tiny от Moonshine эквивалентна Whisper по точности, потребляя при этом меньше вычислительных ресурсов. При различных уровнях звука и фоновом шуме обе версии Moonshine были ниже, чем Whisper, по частоте ошибок в словах (WER), демонстрируя высокие показатели.
Исследовательская группа отметила, что Moonshine еще есть куда совершенствоваться, когда дело доходит до обработки очень коротких аудиоклипов (менее одной секунды). Эти короткие аудиоклипы составляют относительно небольшую часть обучающих данных, и увеличение количества таких аудиоклипов может улучшить производительность модели.
Кроме того, автономные возможности Moonshine открывают новые сценарии применения, и приложения, которые раньше были невозможны из-за аппаратных ограничений, теперь стали осуществимы. В отличие от Whisper, который требует более высокого энергопотребления, Moonshine подходит для работы на смартфонах и небольших устройствах, таких как Raspberry Pi. Компания Useful Sensors использует Moonshine для разработки англо-испанского переводчика Torre.
Код Moonshine был опубликован на GitHub, и пользователи должны знать, что системы транскрипции искусственного интеллекта, такие как Whisper, могут иметь ошибки. Некоторые исследования показали, что Whisper имеет 1,4% вероятность содержать ложную информацию при создании контента, особенно для людей с языковыми нарушениями, где уровень ошибок выше.
Вход в проект: https://github.com/usefulsensors/moonshine.
Появление модели распознавания речи Moonshine с открытым исходным кодом открывает новые возможности для приложений распознавания речи на устройствах с низкими ресурсами. Ее эффективная производительность и гибкая архитектура открывают широкие перспективы применения во многих областях. Но пользователям также необходимо знать о потенциальных ошибках и использовать их с осторожностью. Редактор Downcodes рекомендует всем обращать внимание на его последующие обновления и улучшения.