Model Pengenalan Pidato Open Source Xiaohongshu FireredAsr memiliki akurasi pengakuan Cina yang sangat baik - artikel AI

Penulis：Eve Cole Waktu Pembaruan：2025-02-14 11:00:04

Tim pemecatan Xiaohongshu telah membuka model pengenalan suara baru Fireredasr, yang telah membuat terobosan yang signifikan di bidang pengenalan suara Cina. Kata kesalahannya (CER) serendah 3,05%, turun 8,4% dari model terbaik sebelumnya, dan menunjukkan kinerja yang kuat dalam beberapa skenario aplikasi praktis seperti video pendek, siaran langsung dan input suara. FireredAsr menawarkan dua struktur inti: FireredAsr-LLM berfokus pada akurasi, sementara akurasi dan efisiensi saldo-fireredasr. Model ini mendukung beberapa lokal, termasuk Mandarin, dialek Cina dan Inggris, dan bersumber terbuka di GitHub dan memeluk wajah.

Indikator inti dari FireredAsr adalah Word ERROR Rate (CER). Dalam pengujian publik baru-baru ini, Cer Fireredasr mencapai 3,05%, turun 8,4% dari model terbaik sebelumnya, seed-asr. Hasil ini menunjukkan kemampuan inovatif tim yang ditembakkan dalam teknologi pengenalan suara.

Model FireredAsr dibagi menjadi dua struktur inti: FireredAsr-Llm dan FireredAsr-Aed. Yang pertama berfokus pada keakuratan pengenalan suara tertinggi, sementara yang terakhir mencapai keseimbangan yang baik antara akurasi dan efisiensi penalaran. Tim ini menyediakan model dan kode inferensi dengan ukuran yang berbeda untuk memenuhi kebutuhan berbagai skenario aplikasi.

FireredAsr juga menunjukkan kinerja yang kuat dalam beberapa skenario aplikasi harian. Dalam satu set tes yang terdiri dari berbagai sumber seperti video pendek, streaming langsung dan input suara, CER FireredAsr-LLM telah berkurang sebesar 23,7% menjadi 40% dibandingkan dengan penyedia layanan terkemuka industri. Terutama dalam skenario di mana pengenalan lirik diperlukan, model ini sangat menonjol, dengan CER mencapai penurunan relatif 50,2% menjadi 66,7%.

Selain itu, FireredAsr telah berkinerja baik dalam skenario dialek dan bahasa Inggris Tiongkok, dengan CER yang secara signifikan lebih unggul daripada model open source sebelumnya pada set uji Kespeech dan Librispeech, menunjukkan ketahanan dan kemampuan beradaptasi di beberapa lokal.

Tim yang ditembakkan berharap untuk mempromosikan pengembangan dan penerapan teknologi pengenalan suara melalui model baru open source ini dan berkontribusi pada masa depan interaksi suara. Semua model dan kode telah diterbitkan di GitHub, mendorong lebih banyak pengembang dan peneliti untuk berpartisipasi.

HuggingFace: https: //huggingface.co/fireredteam

github: https: //github.com/fireredteam/fireredasr

Poin -Poin Kunci:

- FireredAsr adalah model pengenalan suara open source yang baru dirilis oleh tim Xiaohongshu, dengan akurasi pengakuan Cina yang sangat baik.

-Model ini dibagi menjadi FireredAsr-Llm dan FireredAsr-AED, masing-masing, untuk persyaratan akurasi dan efisiensi.

- FireredAsr berkinerja sangat baik dalam banyak skenario dan cocok untuk berbagai lingkungan bahasa seperti mandarin, dialek Cina dan bahasa Inggris.

Sumber terbuka FireredAsr tidak diragukan lagi akan mempercepat pengembangan teknologi pengenalan suara Cina, menyediakan alat yang ampuh bagi pengembang dan peneliti, dan juga menunjukkan bahwa pengalaman interaksi suara yang lebih nyaman dan cerdas akan datang di masa depan. Menantikan aplikasi yang lebih inovatif berdasarkan FireredAsr!