Xiaohongshu Firered 팀은 새로운 음성 인식 모델 Fireredasr를 열었으며, 이는 중국어 음성 인식 분야에서 상당한 돌파구를 만들었습니다. Word 오류율 (CER)은 3.05%, 이전 최고의 모델에서 8.4% 감소했으며 짧은 비디오, 라이브 브로드 캐스트 및 음성 입력과 같은 여러 실제 응용 시나리오에서 강력한 성능을 보여줍니다. Fireredasr는 두 가지 핵심 구조를 제공합니다. Fireredasr-Llm은 정확도에 중점을두고 Fireredasr-AED 잔액 정확도와 효율성. 이 모델은 만다린, 중국 방언 및 영어를 포함한 여러 로케일을 지원하며 Github 및 Hugging Face에서 오픈 소스입니다.
Fireredasr의 핵심 지표는 단어 오류율 (CER)입니다. 최근 공개 테스트에서 Fireredasr의 CER은 이전 최고의 모델 인 Seed-ASR에서 8.4% 감소한 3.05%에 도달했습니다. 이 결과는 발사 된 팀의 음성 인식 기술에서 혁신적인 능력을 보여줍니다.
Fireredasr 모델은 Fireredasr-Llm과 FireDasr-AED의 두 가지 핵심 구조로 나뉩니다. 전자는 궁극적 인 음성 인식 정확도에 중점을 두는 반면, 후자는 정확도와 추론 효율성 사이의 균형을 잘 보여줍니다. 이 팀은 다양한 응용 시나리오의 요구를 충족시키기 위해 다양한 크기의 모델 및 추론 코드를 제공합니다.
Fireredasr는 또한 다중 일일 응용 프로그램 시나리오에서 강력한 성능을 보여줍니다. 짧은 비디오, 라이브 스트리밍 및 음성 입력과 같은 다양한 소스로 구성된 테스트 세트에서 Fireredasr-LLM의 CER은 업계의 주요 서비스 제공 업체에 비해 23.7%에서 40% 감소했습니다. 특히 가사 인식이 필요한 시나리오에서는 모델이 특히 두드러지며 CER은 50.2%에서 66.7%의 상대적 감소를 달성합니다.
또한 Fireredasr는 중국 방언 및 영어 시나리오에서 잘 수행되었으며, CER은 Kespeech 및 Librispeech 테스트 세트의 이전 오픈 소스 모델보다 훨씬 우수하여 여러 지역에서 견고성과 적응성을 보여줍니다.
Firered Team 은이 새로운 오픈 소스 모델을 통해 음성 인식 기술의 개발 및 적용을 촉진하고 음성 상호 작용의 미래에 기여하기를 희망합니다. 모든 모델과 코드는 Github에 게시되어 더 많은 개발자와 연구원이 참여하도록 장려합니다.
huggingface : https : //huggingface.co/fireredteam
github : https : //github.com/fireredteam/fireredasr
핵심 사항 :
- Fireredasr는 Xiaohongshu 팀이 새로 출시 한 오픈 소스 음성 인식 모델로, 중국 인식 정확도가 뛰어납니다.
-모델은 정확도 및 효율성 요구 사항을 위해 각각 Fireredasr-LLM 및 FireRedasr-AED로 나뉩니다.
- Fireredasr는 많은 시나리오에서 훌륭하게 성능을 발휘하며 만다린, 중국 방언 및 영어와 같은 다양한 언어 환경에 적합합니다.
Fireredasr의 오픈 소스는 의심 할 여지없이 중국 음성 인식 기술의 개발을 가속화하고 개발자와 연구원에게 강력한 도구를 제공하며,보다 편리하고 지능적인 음성 상호 작용 경험이 향후에 올 것임을 나타냅니다. Fireredasr를 기반으로하는보다 혁신적인 응용 프로그램을 기대합니다!