Das Xiaohongshu -Fireed -Team hat das neue Spracherkennungsmodell Firedasr eröffnet, das im Bereich der chinesischen Spracherkennung erhebliche Durchbrüche erzielt hat. Die Wortfehlerrate (CER) beträgt nur 3,05%, eine sinkende Leistung in mehreren praktischen Anwendungsszenarien wie kurzen Video-, Live -Broadcast- und Spracheingabe. FireRedasr bietet zwei Kernstrukturen: Fireedasr-Llm konzentriert sich auf die Genauigkeit, während Fireedasr-AED die Genauigkeit und Effizienz ausweist. Das Modell unterstützt mehrere Orte, einschließlich Mandarin, chinesisches Dialekt und Englisch und ist offen auf Github und Umarmung.
Der Kernindikator für FireRedasr ist die Wortfehlerrate (CER). Bei den jüngsten öffentlichen Tests erreichte der CER von Fireedasr 3,05%, was dem vorherigen besten Modell Seed-Asr um 8,4% zurückging. Dieses Ergebnis zeigt die innovative Fähigkeit des Feuerwehrmannschaft in der Spracherkennungstechnologie.
Das Fireedasr-Modell ist in zwei Kernstrukturen unterteilt: Fireedasr-Llm und FireRedasr-AED. Ersteres konzentriert sich auf die ultimative Genauigkeit der Spracherkennung, während letztere ein gutes Gleichgewicht zwischen Genauigkeit und Argumentationseffizienz erreicht. Das Team bietet Modelle und Inferenzcodes verschiedener Größen, um den Anforderungen verschiedener Anwendungsszenarien gerecht zu werden.
FireRedasr zeigt auch eine leistungsstarke Leistung in mehreren täglichen Anwendungsszenarien. In einem Testset, der aus einer Vielzahl von Quellen wie Short-Video, Live-Streaming und Spracheingabe besteht, wurde FireRedasr-Llms CER im Vergleich zu den führenden Dienstleister der Branche um 23,7% auf 40% reduziert. Insbesondere in Szenarien, in denen die Erkennung von Lyrik erforderlich ist, ist das Modell besonders prominent, wobei Cer einen relativen Rückgang von 50,2% auf 66,7% erreicht.
Darüber hinaus hat Fireedasr im chinesischen Dialekt- und englischen Szenarien gut abgebildet, wobei sein CER den früheren Open -Source -Modellen für die Testersätze von Kespeech und Librispeech deutlich überlegen ist und seine Robustheit und Anpassungsfähigkeit in mehreren Orten demonstriert.
Das Feuerwehrteam hofft, die Entwicklung und Anwendung der Spracherkennungstechnologie durch dieses neue Modell von Open Source zu fördern und zur Zukunft der Sprachinteraktion beizutragen. Alle Modelle und Code wurden auf Github veröffentlicht, um mehr Entwickler und Forscher zur Teilnahme zu ermutigen.
Harmingface: https: //huggingface.co/fireredTeam
GitHub: https: //github.com/fireredteam/fireredasr
Schlüsselpunkte:
- FireRedasr ist ein neu veröffentlichtes Open -Source -Spracherkennungsmodell des Xiaohongshu -Teams mit einer hervorragenden chinesischen Anerkennungsgenauigkeit.
-Das Modell ist für Genauigkeit und Effizienz in Fireedasr-Llm und FireRedasr-AED unterteilt.
- FireRedasr tritt in vielen Szenarien hervorragend aus und eignet sich für verschiedene Sprachumgebungen wie Mandarin, chinesisches Dialekt und Englisch.
Die Open Source of FireRedasr wird zweifellos die Entwicklung der chinesischen Spracherkennungstechnologie beschleunigen, Entwicklern und Forschern ein leistungsstarkes Instrument bieten und darauf hinweisen, dass in Zukunft ein bequemeres und intelligentes Erlebnis der Sprachinteraktion kommen wird. Ich freue mich auf innovativere Anwendungen, die auf Fireedasr basieren!