L'équipe Firered de Xiaohongshu a ouvert le nouveau modèle de reconnaissance de la parole Fireredasr, qui a fait des percées importantes dans le domaine de la reconnaissance de la parole chinoise. Son taux d'erreur de mot (CER) est aussi faible que 3,05%, en baisse de 8,4% par rapport au meilleur modèle précédent, et montre des performances puissantes dans plusieurs scénarios d'application pratiques tels que la vidéo courte, la diffusion en direct et la saisie vocale. Fireredasr propose deux structures de base: Fireredasr-llm se concentre sur la précision, tandis que Fireredasr-AED Balances précisément et efficacité. Le modèle prend en charge plusieurs lieux, notamment le mandarin, le dialecte chinois et l'anglais, et est ouvert sur Github et le visage étreint.
L'indicateur central de Fireredasr est le taux d'erreur de mots (CER). Lors des récents tests publics, le CER de Fireredasr a atteint 3,05%, en baisse de 8,4% par rapport au meilleur modèle précédent, Seed-ASR. Ce résultat montre la capacité innovante de l'équipe à feu dans la technologie de reconnaissance vocale.
Le modèle Fireredasr est divisé en deux structures de base: Fireredasr-llm et Fireredasr-AED. Le premier se concentre sur la précision ultime de la reconnaissance de la parole, tandis que la seconde atteint un bon équilibre entre l'exactitude et l'efficacité du raisonnement. L'équipe fournit des modèles et des codes d'inférence de différentes tailles pour répondre aux besoins de divers scénarios d'application.
Fireredasr démontre également des performances puissantes dans plusieurs scénarios d'application quotidiens. Dans un ensemble de tests composé d'une variété de sources telles que la vidéo courte, le streaming en direct et la contribution vocale, le CER de Fireredasr-llm a été réduit de 23,7% à 40% par rapport aux principaux fournisseurs de services de l'industrie. Surtout dans les scénarios où la reconnaissance lyrique est nécessaire, le modèle est particulièrement important, CER atteignant une diminution relative de 50,2% à 66,7%.
De plus, Fireredasr a bien fonctionné dans les scénarios de dialecte chinois et d'anglais, avec son CER nettement supérieur aux modèles open source précédents sur les ensembles de tests Kespeech et LibrishePesech, démontrant sa robustesse et sa adaptabilité dans plusieurs endroits.
L'équipe de feu espère promouvoir le développement et l'application de la technologie de reconnaissance vocale à travers ce nouveau modèle d'open source et contribuer à l'avenir de l'interaction vocale. Tous les modèles et code ont été publiés sur GitHub, encourageant davantage de développeurs et de chercheurs à participer.
Huggingface: https: //huggingface.co/fireredteam
github: https: //github.com/fireredteam/fireredasr
Points clés:
- Fireredasr est un modèle de reconnaissance de la parole open source nouvellement publié par l'équipe de Xiaohongshu, avec une excellente précision de reconnaissance chinoise.
- Le modèle est divisé en Fireredasr-llm et Fireredasr-AED, respectivement, pour les exigences de précision et d'efficacité.
- Fireredasr fonctionne parfaitement dans de nombreux scénarios et convient à divers environnements linguistiques tels que le mandarin, le dialecte chinois et l'anglais.
L'open source de Fireredasr accélérera sans aucun doute le développement de la technologie chinoise de reconnaissance vocale, fournira un outil puissant aux développeurs et aux chercheurs, et indique également qu'une expérience d'interaction vocale plus pratique et intelligente sera à l'avenir. Dans l'attente d'applications plus innovantes basées sur Fireredasr!