ทีม Fireered Xiaohongshu ได้เปิดรูปแบบการจดจำคำพูดใหม่ FireeredAsr ซึ่งได้สร้างความก้าวหน้าอย่างมีนัยสำคัญในด้านการจดจำการพูดภาษาจีน อัตราความผิดพลาดของคำ (CER) ต่ำถึง 3.05% ลดลง 8.4% จากรุ่นที่ดีที่สุดก่อนหน้านี้และแสดงประสิทธิภาพที่ทรงพลังในสถานการณ์แอปพลิเคชันที่ใช้งานได้หลายสถานการณ์เช่นวิดีโอสั้น ๆ การถ่ายทอดสดและการป้อนข้อมูลเสียง FireeredAsr นำเสนอโครงสร้างหลักสองโครงสร้าง: FireeredAsr-LLM มุ่งเน้นไปที่ความแม่นยำในขณะที่ FireeredAsr-AED มีความแม่นยำและประสิทธิภาพ โมเดลรองรับสถานที่หลายแห่งรวมถึงภาษาจีนกลางภาษาจีนและภาษาอังกฤษและเปิดแหล่งที่มาของ GitHub และกอด
ตัวบ่งชี้หลักของ FireeredAsr คืออัตราความผิดพลาดของคำ (CER) ในการทดสอบสาธารณะเมื่อเร็ว ๆ นี้ CER ของ FireeredAsr ถึง 3.05% ลดลง 8.4% จากรุ่นที่ดีที่สุดก่อนหน้านี้คือ Seed-ASR ผลลัพธ์นี้แสดงให้เห็นถึงความสามารถในการสร้างนวัตกรรมของทีม Fireered ในเทคโนโลยีการจดจำคำพูด
โมเดล FireeredAsr แบ่งออกเป็นสองโครงสร้างหลัก: FireeredAsr-llm และ FireeredAsr-AED อดีตมุ่งเน้นไปที่ความแม่นยำในการจดจำคำพูดที่ดีที่สุดในขณะที่หลังบรรลุความสมดุลที่ดีระหว่างความแม่นยำและประสิทธิภาพการใช้เหตุผล ทีมจัดเตรียมโมเดลและรหัสการอนุมานที่มีขนาดแตกต่างกันเพื่อตอบสนองความต้องการของสถานการณ์แอปพลิเคชันต่างๆ
FireeredAsr ยังแสดงให้เห็นถึงประสิทธิภาพที่ทรงพลังในสถานการณ์แอปพลิเคชันหลาย ๆ วัน ในชุดทดสอบประกอบด้วยแหล่งข้อมูลที่หลากหลายเช่นวิดีโอสั้น ๆ การสตรีมสดและการป้อนข้อมูลเสียง CER ของ FireeredAsr-LLM ลดลง 23.7% ถึง 40% เมื่อเทียบกับผู้ให้บริการชั้นนำของอุตสาหกรรม โดยเฉพาะอย่างยิ่งในสถานการณ์ที่จำเป็นต้องมีการรับรู้บทกวีแบบจำลองนั้นโดดเด่นเป็นพิเศษโดย CER ประสบความสำเร็จในการลดลงของสัมพัทธ์ 50.2% เป็น 66.7%
นอกจากนี้ FireeredAsr ยังทำงานได้ดีในสถานการณ์ภาษาจีนและสถานการณ์ภาษาอังกฤษด้วย CER ที่เหนือกว่ารุ่นโอเพนซอร์สก่อนหน้านี้ในชุดทดสอบ Kespeech และ Librispeech แสดงให้เห็นถึงความแข็งแกร่งและความสามารถในการปรับตัวในหลาย ๆ สถานที่
ทีมงาน Fireered หวังที่จะส่งเสริมการพัฒนาและการประยุกต์ใช้เทคโนโลยีการรู้จำเสียงพูดผ่านรูปแบบใหม่ของโอเพ่นซอร์สและมีส่วนร่วมในอนาคตของการโต้ตอบด้วยเสียง ทุกรุ่นและรหัสได้รับการเผยแพร่บน GitHub กระตุ้นให้นักพัฒนาและนักวิจัยมากขึ้นให้เข้าร่วม
HuggingFace: https: //huggingface.co/fireredteam
GitHub: https: //github.com/fireredteam/fireredasr
ประเด็นสำคัญ:
- FireeredAsr เป็นรูปแบบการจดจำคำพูดโอเพ่นซอร์สที่เพิ่งเปิดตัวใหม่โดยทีม Xiaohongshu ซึ่งมีความแม่นยำในการจดจำภาษาจีนที่ยอดเยี่ยม
-แบบจำลองนี้แบ่งออกเป็น FireeredAsr-LLM และ FireeredAsr-AED ตามลำดับเพื่อความถูกต้องและความต้องการประสิทธิภาพ
- FireeredAsr ดำเนินการอย่างยอดเยี่ยมในหลาย ๆ สถานการณ์และเหมาะสำหรับสภาพแวดล้อมภาษาต่าง ๆ เช่นภาษาจีนกลางภาษาจีนและภาษาอังกฤษ
โอเพ่นซอร์สของ FireeredAsr จะเร่งการพัฒนาเทคโนโลยีการจดจำเสียงของจีนอย่างไม่ต้องสงสัยจัดหาเครื่องมือที่ทรงพลังสำหรับนักพัฒนาและนักวิจัยและยังระบุว่าประสบการณ์การโต้ตอบด้วยเสียงที่สะดวกและชาญฉลาดยิ่งขึ้นจะเกิดขึ้นในอนาคต รอคอยแอพพลิเคชั่นที่เป็นนวัตกรรมมากขึ้นตาม FireeredAsr!