Команда Сяхонгу Firered открыла новую модель распознавания речи Fireredasr, которая сделала значительные прорывы в области распознавания речи Китая. Уровень ошибок (CER) его слов (CER) составляет всего 3,05%, что на 8,4% от предыдущей лучшей модели и показывает мощную производительность в нескольких практических сценариях применения, таких как короткое видео, живая трансляция и голосовой ввод. FireRedASR предлагает две основные структуры: FireRedASR-LLM фокусируется на точности, в то время как FireredAsR-Aed Balancing Точность и эффективность. Модель поддерживает несколько мест, в том числе мандарин, китайский диалект и английский, и открыта на GitHub и обнимающееся лицо.
Основным индикатором FireRedASR является частота ошибок слова (CER). В недавнем общественном тестировании CER FireredASR достиг 3,05%, что на 8,4% по сравнению с предыдущей лучшей моделью, Seed-ASR. Этот результат показывает инновационную способность Forreed Team в технологии распознавания речи.
Модель FireRedASR разделена на две основные структуры: FireRedASR-LLM и FireredAsR-AED. Первый фокусируется на конечной точности распознавания речи, в то время как последний достигает хорошего баланса между точностью и эффективностью рассуждений. Команда предоставляет модели и коды вывода разных размеров для удовлетворения потребностей различных сценариев применения.
FireRedASR также демонстрирует мощную производительность в нескольких ежедневных сценариях применения. В тестовом наборе, состоящем из различных источников, таких как короткое видео, прямая трансляция и голосовой ввод, CER FireredASR-LLM был уменьшен на 23,7% до 40% по сравнению с ведущими поставщиками услуг отрасли. Особенно в сценариях, где требуется лирическое распознавание, модель особенно заметна, причем CER достигает относительного снижения на 50,2% до 66,7%.
Кроме того, FireRedASR хорошо показал в китайском диалекте и английском сценариях, а его CER значительно превосходит предыдущие модели с открытым исходным кодом на тестовых наборах Kespeech и Librispeech, демонстрируя ее надежность и адаптивность в нескольких локалах.
Огненная команда надеется содействовать разработке и применению технологии распознавания речи через эту новую модель открытого исходного кода и внести свой вклад в будущее голосового взаимодействия. Все модели и код были опубликованы на GitHub, поощряя больше разработчиков и исследователей участвовать.
Huggingface: https: //huggingface.co/fireredteam
github: https: //github.com/fireredteam/fireredasr
Ключевые моменты:
- FireRedASR - это недавно выпущенная модель распознавания речи с открытым исходным кодом команды Siaohongshu, с превосходной точностью распознавания Китая.
-Модель разделена на FireredASR-LLM и FireRedasR-AED, соответственно, для требований точности и эффективности.
- FireRedASR отлично работает во многих сценариях и подходит для различных языковых сред, таких как мандарин, китайский диалект и английский.
Открытый источник FireRedASR, несомненно, ускорит разработку китайской технологии распознавания голоса, предоставит мощный инструмент для разработчиков и исследователей, а также укажет, что в будущем появится более удобный и интеллектуальный опыт взаимодействия голоса. С нетерпением жду более инновационных приложений на основе FireRedASR!