A equipe de lançamento de Xiaohongshu abriu o novo modelo de reconhecimento de discurso Firredasr, que fez avanços significativos no campo do reconhecimento de fala chinesa. Sua taxa de erro de palavra (CER) é tão baixa quanto 3,05%, queda de 8,4% em relação ao melhor modelo anterior, e mostra um desempenho poderoso em vários cenários de aplicação práticos, como vídeo curto, transmissão ao vivo e entrada de voz. O Fireredasr oferece duas estruturas principais: o Firredasr-Llm se concentra na precisão, enquanto os saldos e a eficiência dos balanciões de fogo. O modelo suporta vários locais, incluindo mandarim, dialeto chinês e inglês, e é de origem aberta no Github e abraçando o rosto.
O indicador principal do Fireredasr é a taxa de erro da palavra (CER). Nos recentes testes públicos, o CER da Fireredasr atingiu 3,05%, queda de 8,4% em relação ao melhor modelo anterior, sementes-ASR. Este resultado mostra a capacidade inovadora da equipe em tecnologia de reconhecimento de fala.
O modelo de fogo é dividido em duas estruturas centrais: Firredasr-llm e Firredasr-aed. O primeiro se concentra na precisão final do reconhecimento de fala, enquanto o último alcança um bom equilíbrio entre precisão e eficiência do raciocínio. A equipe fornece modelos e códigos de inferência de tamanhos diferentes para atender às necessidades de vários cenários de aplicativos.
O Fireredasr também demonstra desempenho poderoso em vários cenários de aplicação diários. Em um conjunto de testes que consiste em uma variedade de fontes, como vídeo curto, transmissão ao vivo e entrada de voz, o CER da Firredasr-Llm foi reduzido em 23,7% para 40% em comparação com os principais provedores de serviços do setor. Especialmente em cenários em que o reconhecimento lírico é necessário, o modelo é particularmente proeminente, com o CER alcançando uma diminuição relativa de 50,2% a 66,7%.
Além disso, o Fireredasr teve um bom desempenho nos cenários de dialeto chinês e inglês, com seu CER significativamente superior aos modelos anteriores de código aberto nos conjuntos de testes KESPESECH e LIBRISPEEL, demonstrando sua robustez e adaptabilidade em vários locais.
A equipe de fogo espera promover o desenvolvimento e aplicação da tecnologia de reconhecimento de fala através desse novo modelo de código aberto e contribuir para o futuro da interação com voz. Todos os modelos e código foram publicados no Github, incentivando mais desenvolvedores e pesquisadores a participar.
Huggingface: https: //huggingface.co/firredTeam
Github: https: //github.com/firredteam/fireredasr
Pontos -chave:
- O Fireredasr é um modelo de reconhecimento de fala de código aberto recém -lançado da equipe Xiaohongshu, com excelente precisão de reconhecimento chinês.
-O modelo é dividido em areado-llm e fogo de fogo, respectivamente, para requisitos de precisão e eficiência.
- O Fireredasr tem um desempenho excelentemente em muitos cenários e é adequado para vários ambientes de idiomas, como mandarim, dialeto chinês e inglês.
O código aberto do Fireredasr acelerará, sem dúvida, o desenvolvimento da tecnologia de reconhecimento de voz chinesa, fornecerá uma ferramenta poderosa para desenvolvedores e pesquisadores e também indicará que uma experiência de interação de voz mais conveniente e inteligente chegará no futuro. Ansioso por aplicações mais inovadoras com base no Fireredasr!