افتتح فريق Xiaohongshu Firered نموذج التعرف على الكلام الجديد Fireredasr ، الذي حقق اختراقات كبيرة في مجال التعرف على الكلام الصيني. معدل خطأ الكلمات (CER) منخفض إلى 3.05 ٪ ، بانخفاض 8.4 ٪ عن أفضل نموذج سابق ، ويظهر أداء قوي في سيناريوهات التطبيق العملي المتعددة مثل الفيديو القصير والبث المباشر والإدخال الصوتي. يوفر Fireredasr هيكلين أساسيين: يركز Fireredasr-Llm على الدقة ، في حين أن أرصدة وكفاءة Fireredasr-Aed. يدعم النموذج أماكن متعددة ، بما في ذلك الماندرين واللهجة الصينية والإنجليزية ، وهو مفتوح من مصادر على GitHub ووجه المعانقة.
المؤشر الأساسي لـ fireredasr هو معدل خطأ الكلمة (CER). في الاختبارات العامة الأخيرة ، بلغ CER Fireredasr 3.05 ٪ ، بانخفاض 8.4 ٪ عن أفضل نموذج سابق ، Seed-ASR. تُظهر هذه النتيجة القدرة المبتكرة للفريق المبتكر في تكنولوجيا التعرف على الكلام.
ينقسم نموذج Fireredasr إلى هيكلين أساسيين: Fireredasr-Llm و Fireredasr-Aed. السابق يركز على دقة التعرف على الكلام في نهاية المطاف ، بينما يحقق الأخير توازنًا جيدًا بين الدقة وكفاءة التفكير. يوفر الفريق النماذج ورموز الاستدلال ذات الأحجام المختلفة لتلبية احتياجات سيناريوهات التطبيق المختلفة.
يوضح Fireredasr أيضًا أداءً قويًا في سيناريوهات التطبيق اليومية المتعددة. في مجموعة اختبار تتكون من مجموعة متنوعة من المصادر مثل الفيديو القصير والبث المباشر والمدخلات الصوتية ، تم تخفيض CER Fireredasr-LLM بنسبة 23.7 ٪ إلى 40 ٪ مقارنة بمقدمي الخدمات الرائدين في الصناعة. خاصة في السيناريوهات التي يلزم الاعتراف الغنائي ، يكون النموذج بارزًا بشكل خاص ، حيث حقق CER انخفاضًا نسبيًا قدره 50.2 ٪ إلى 66.7 ٪.
بالإضافة إلى ذلك ، كان أداء FireredAsr جيدًا في سيناريوهات اللغة الصينية والإنجليزية ، مع CER متفوقة بشكل كبير على نماذج المصادر المفتوحة السابقة على مجموعات اختبار Kespeech و Librispeech ، مما يدل على متانتها وقدرتها على التكيف في أماكن متعددة.
يأمل فريق Firered في تعزيز تطوير وتطبيق تكنولوجيا التعرف على الكلام من خلال هذا النموذج الجديد للمصدر المفتوح والمساهمة في مستقبل التفاعل الصوتي. تم نشر جميع النماذج والرمز على Github ، مما يشجع المزيد من المطورين والباحثين على المشاركة.
Luggingface: https: //huggingface.co/fireredteam
Github: https: //github.com/fireredteam/fireredasr
النقاط الرئيسية:
- Fireredasr هو نموذج التعرف على الكلام مفتوح المصدر تم إصداره حديثًا من قبل فريق Xiaohongshu ، مع دقة تقدير صينية ممتازة.
-ينقسم النموذج إلى Fireredasr-Llm و Fireredasr-Aed ، على التوالي ، لمتطلبات الدقة والكفاءة.
- يعمل Fireredasr بشكل ممتاز في العديد من السيناريوهات وهو مناسب لبيئات اللغة المختلفة مثل الماندرين واللهجة الصينية والإنجليزية.
سيؤدي المصدر المفتوح لـ Fireredasr إلى تسريع دون شك في تطوير تكنولوجيا التعرف على الصوت الصيني ، ويوفر أداة قوية للمطورين والباحثين ، كما تشير إلى أن تجربة التفاعل الصوتي الأكثر ملاءمة وذكية ستأتي في المستقبل. نتطلع إلى المزيد من التطبيقات المبتكرة على أساس Fireredasr!