Moore Thread ได้ใช้โมเดลการทำความเข้าใจเสียงขนาดใหญ่แบบโอเพ่นซอร์ส MooER ซึ่งเป็นโมเดลคำพูดแบบโอเพ่นซอร์สขนาดใหญ่ตัวแรกของอุตสาหกรรมที่อิงจากการฝึกอบรมและการอนุมาน GPU ที่มีคุณสมบัติครบถ้วนในประเทศ ซึ่งเป็นหลักชัยสำคัญ MooER รองรับการรู้จำเสียงพูดภาษาจีนและอังกฤษ และการแปลการออกเสียงภาษาจีน-อังกฤษ ซึ่งแสดงให้เห็นถึงความสามารถในการประมวลผลหลายภาษาอันทรงพลัง โครงสร้างโมเดลสามส่วนที่เป็นนวัตกรรมใหม่ (ตัวเข้ารหัส อะแดปเตอร์ และตัวถอดรหัส) ช่วยให้โมเดลสามารถประมวลผลเสียงและทำงานดาวน์สตรีมได้อย่างมีประสิทธิภาพ ปัจจุบัน รหัสการอนุมานและแบบจำลองที่ได้รับการฝึกอบรมโดยอิงจากข้อมูล 5,000 ชั่วโมงนั้นเป็นแบบโอเพ่นซอร์ส ในอนาคต รหัสการฝึกอบรมและแบบจำลองที่ได้รับการปรับปรุงซึ่งได้รับการฝึกอบรมโดยอิงจากข้อมูล 80,000 ชั่วโมงจะเป็นแบบโอเพ่นซอร์ส ซึ่งจะส่งเสริมการพัฒนาอย่างมาก ของเทคโนโลยี AI เสียงทั้งในและต่างประเทศ
MooER ทำงานได้ดีในการทดสอบเปรียบเทียบเสียงโอเพ่นซอร์สที่มีชื่อเสียงหลายตัวที่เข้าใจโมเดลขนาดใหญ่ โดยมีอัตราข้อผิดพลาดของคำภาษาจีน (CER) ต่ำเพียง 4.21% และอัตราข้อผิดพลาดของคำภาษาอังกฤษ (WER) 17.98% โดยเฉพาะ BLEU ในภาษาจีน -ชุดทดสอบการแปลภาษาอังกฤษ คะแนนสูงถึง 25.2 เป็นผู้นำรุ่นโอเพ่นซอร์สอื่นๆ โมเดล MooER-80k ที่ฝึกฝนโดยอิงจากข้อมูล 80,000 ชั่วโมง มีประสิทธิภาพที่ดีกว่า โดย CER และ WER ลดลงเหลือ 3.50% และ 12.66% ตามลำดับ ซึ่งแสดงให้เห็นถึงศักยภาพที่ยอดเยี่ยม ความเคลื่อนไหวของ Moore Thread ไม่เพียงแต่แสดงให้เห็นถึงความแข็งแกร่งของ GPU ในประเทศในด้าน AI เท่านั้น แต่ยังอัดฉีดพลังใหม่ให้กับการพัฒนาเทคโนโลยี AI เสียงระดับโลกอีกด้วย คาดว่า MooER จะนำมาซึ่งความก้าวหน้าที่มากขึ้นในอนาคต
ในการทดสอบเปรียบเทียบกับเสียงโอเพ่นซอร์สที่มีชื่อเสียงหลายตัวที่เข้าใจโมเดลขนาดใหญ่ MooER-5K ทำงานได้ดีเยี่ยม ในการทดสอบภาษาจีน อัตราข้อผิดพลาดของคำ (CER) สูงถึง 4.21% ในการทดสอบภาษาอังกฤษ อัตราข้อผิดพลาดของคำ (WER) อยู่ที่ 17.98% ซึ่งดีกว่าหรือเทียบเท่ากับรุ่นยอดนิยมอื่นๆ เป็นเรื่องที่น่าสังเกตเป็นอย่างยิ่งว่าในชุดทดสอบการแปลภาษาจีน-อังกฤษของ Covost2zh2en คะแนน BLEU ของ MooER สูงถึง 25.2 ซึ่งเหนือกว่ารุ่นโอเพ่นซอร์สอื่นๆ อย่างมาก และถึงระดับที่เทียบเคียงได้กับแอปพลิเคชันระดับอุตสาหกรรม
สิ่งที่น่าตื่นเต้นยิ่งกว่านั้นคือโมเดล MooER-80k ที่ฝึกฝนโดยอิงจากข้อมูล 80,000 ชั่วโมงแสดงให้เห็นประสิทธิภาพที่ทรงพลังยิ่งขึ้น CER ในชุดทดสอบภาษาจีนลดลงอีกถึง 3.50% และ WER ในชุดทดสอบภาษาอังกฤษก็ปรับให้เหมาะสมเป็น 12.66 เช่นกัน % แสดงศักยภาพในการพัฒนาอย่างมาก
MooER โอเพ่นซอร์สของ Moore Thread ไม่เพียงแต่แสดงให้เห็นถึงความแข็งแกร่งของแอปพลิเคชันของ GPU ในประเทศในด้าน AI เท่านั้น แต่ยังอัดฉีดพลังใหม่ให้กับการพัฒนาเทคโนโลยี AI เสียงระดับโลกอีกด้วย เมื่อข้อมูลและโค้ดการฝึกอบรมกลายเป็นโอเพ่นซอร์สมากขึ้น อุตสาหกรรมก็คาดหวังว่า MooER จะนำความก้าวหน้ามามากขึ้นในการรู้จำเสียงพูด การแปล และสาขาอื่น ๆ พร้อมส่งเสริมความนิยมและการประยุกต์ใช้เทคโนโลยี AI เสียงที่เป็นนวัตกรรมใหม่
ที่อยู่: https://arxiv.org/pdf/2408.05101
โอเพ่นซอร์สของ MooER แสดงให้เห็นว่า GPU ในประเทศมีความก้าวหน้าอย่างมากในด้าน AI โมเดลขนาดใหญ่ โดยจัดหาทรัพยากรและแพลตฟอร์มที่มีคุณค่าสำหรับนักพัฒนาในประเทศและต่างประเทศ คาดว่า MooER จะสามารถมีบทบาทในสถานการณ์การใช้งานต่างๆ ได้มากขึ้นในอนาคต และส่งเสริมนวัตกรรมและการพัฒนาเทคโนโลยี AI เสียงอย่างต่อเนื่อง