El equipo de Xiaohongshu Fired ha abierto el nuevo modelo de reconocimiento de voz Fireberedasr, que ha realizado avances significativos en el campo del reconocimiento de voz chino. Su tasa de error de palabras (CER) es tan baja como 3.05%, un 8,4% menos del mejor modelo anterior, y muestra un rendimiento potente en múltiples escenarios prácticos de aplicaciones, como video corto, transmisión en vivo y entrada de voz. FireberedAsr ofrece dos estructuras centrales: Fireberedasr-LLM se centra en la precisión, mientras que FireberedAsr-AED equilibra la precisión y la eficiencia. El modelo admite múltiples lugares, incluidos mandarín, dialecto chino e inglés, y es de origen abierto en GitHub y abrazando la cara.
El indicador central de FireberedAsr es la tasa de error de palabras (CER). En las recientes pruebas públicas, el CER de Fireberedasr alcanzó el 3.05%, un 8,4% menos que el mejor modelo anterior, Seed-ASR. Este resultado muestra la capacidad innovadora del equipo en la tecnología de reconocimiento de voz.
El modelo Fireberedasr se divide en dos estructuras centrales: Fireberedasr-Llm y Fireberedasr-AED. El primero se centra en la máxima precisión de reconocimiento de voz, mientras que el segundo logra un buen equilibrio entre precisión y eficiencia de razonamiento. El equipo proporciona modelos y códigos de inferencia de diferentes tamaños para satisfacer las necesidades de varios escenarios de aplicación.
FireberedAsr también demuestra un rendimiento potente en múltiples escenarios de aplicaciones diarias. En un conjunto de pruebas que consiste en una variedad de fuentes, como videos cortos, transmisión en vivo y aportes de voz, el CER de Fireberedasr-LLM se ha reducido en un 23.7% a 40% en comparación con los proveedores de servicios líderes de la industria. Especialmente en escenarios en los que se requiere reconocimiento lírico, el modelo es particularmente prominente, con CER logrando una disminución relativa de 50.2% a 66.7%.
Además, Fireberedasr se ha desempeñado bien en los escenarios de dialecto chino y inglés, con su CER significativamente superior a los modelos de código abierto anteriores en los conjuntos de pruebas de Kespeech y Librispeech, demostrando su robustez y adaptabilidad en múltiples locales.
El equipo despido espera promover el desarrollo y la aplicación de la tecnología de reconocimiento de voz a través de este nuevo modelo de código abierto y contribuir al futuro de la interacción de voz. Todos los modelos y código se han publicado en GitHub, alentando a más desarrolladores e investigadores a participar.
Huggingface: https: //huggingface.co/fireredteam
github: https: //github.com/fireredteam/fireredasr
Puntos clave:
- FireberedAsr es un modelo de reconocimiento de voz de código abierto recientemente lanzado por el equipo de Xiaohongshu, con una excelente precisión de reconocimiento chino.
-El modelo se divide en Fireberedasr-LLM y Fireberedasr-AED, respectivamente, para requisitos de precisión y eficiencia.
- FireberedAsr se desempeña excelentemente en muchos escenarios y es adecuado para varios entornos de idiomas, como mandarín, dialecto chino e inglés.
El código abierto de FireberedAsr sin duda acelerará el desarrollo de la tecnología de reconocimiento de voz china, proporcionará una herramienta poderosa para los desarrolladores e investigadores y también indicará que una experiencia de interacción de voz más conveniente e inteligente llegará en el futuro. ¡Esperamos aplicaciones más innovadoras basadas en FireberedAsr!