Полезные датчики US Startup выпустили модель распознавания голоса с открытым исходным кодом под названием Moonshine, направленная на повышение эффективности обработки аудиоданных. По сравнению с шепотом Openai, самолет более экономичен в вычислительных ресурсах и имеет повышенную скорость обработки в пять раз, особенно для оборудования, ограниченного ресурсами и приложений в реальном времени. Его гибкая архитектура и динамическая корректировка времени обработки в соответствии с длиной звука делают его выдающимся при обработке коротких аудио -клипов и эффективно снижает обработку накладных расходов. Moonshine предоставляет две версии, крошечные и базовые, с параметрами 27,1 млн. И 61,5 млн. Соответственно, оба из которых лучше, чем производительность аналогичных моделей в использовании ресурсов.
В отличие от шепота, который делит звук на фиксированные 30-секундные клипы, Moonshine регулирует время обработки в соответствии с фактической длиной звука. Это хорошо работает при обработке более коротких аудиоклипов, уменьшая обработку накладных расходов из -за нулевой прокладки.
Moonshine имеет две версии: небольшая крошечная версия имеет объем параметров 27,1 млн, а большая базовая версия имеет объем параметров 61,5 млн. Напротив, аналогичные параметры модели OpenAI больше, причем Whisper Tiny. EN составляют 37,8 миллиона, а база - 72,6 млн.
Результаты теста показывают, что крошечная модель Moonshine сопоставима с шепотом с точки зрения точности и потребляет меньше вычислительных ресурсов. Обе версии самогона ниже, чем шепотом в частоте ошибок слова (WER) для различных уровней аудио и фонового шума, демонстрируя сильную производительность.
Исследовательская группа отметила, что Moonshine по -прежнему имеет место для улучшения при обработке чрезвычайно коротких аудиопликаций (менее одной секунды). Эти короткие аудионы учитывают небольшую долю учебных данных, и увеличение обучения таких аудио -клипов может улучшить производительность модели.
Кроме того, автономные возможности Moonshine открывают новые сценарии приложений, и приложения, которые ранее были недоступны из -за ограничений оборудования, теперь возможны. В отличие от Whisper, который требует более высокого энергопотребления, самолет подходит для работы на смартфонах и небольших устройствах, таких как Raspberry Pi. Полезными датчиками является использование Moonshine для разработки своего английского переводчика Torre.
Код Moonshine был выпущен на GitHub, и пользователи должны отметить, что системы транскрипции искусственного интеллекта, такие как Whisper, могут испытывать ошибки. Некоторые исследования показали, что Whisper имеет 1,4% -ную вероятность ложной информации при создании контента, особенно для людей с языковыми барьерами, с более высокими частотами ошибок.
Вход в проект: https://github.com/usefulsensess/moonshine
Ключевые моменты:
Moonshine - это модель распознавания голоса с открытым исходным кодом, которая обрабатывается в пять раз быстрее, чем шепот Openai.
Эта модель может настраивать время обработки в соответствии с длиной звука, особенно подходит для коротких аудиоклипов.
Сауншин поддерживает автономную работу и подходит для использования с ограниченными ресурсами.
Короче говоря, Moonshine приносит новые возможности для технологии распознавания голоса с эффективной скоростью обработки, гибкой архитектурой и низким спросом на ресурсы, особенно в устройствах с ограниченными ресурсами и сценариями приложений в реальном времени. Его функции с открытым исходным кодом также облегчают разработчиков улучшать и применять, и их стоит обратить внимание и с нетерпением жду.