aiOla สตาร์ทอัพด้านปัญญาประดิษฐ์ของอิสราเอลได้เปิดตัวโมเดลการรู้จำเสียงโอเพ่นซอร์สใหม่ Whisper-Medusa ซึ่งได้รับการปรับปรุงบน Whisper ของ OpenAI และเร็วขึ้น 50% โดยเป็นโอเพ่นซอร์สภายใต้ใบอนุญาต MIT บน Hugging Face Research และอนุญาตให้ใช้ในเชิงพาณิชย์ เครื่องมือแก้ไขของ Downcodes จะให้คำอธิบายโดยละเอียดเกี่ยวกับโมเดลใหม่ที่สะดุดตานี้แก่คุณ
เมื่อเร็ว ๆ นี้ aiOla สตาร์ทอัพด้านปัญญาประดิษฐ์ของอิสราเอลได้ทำการเคลื่อนไหวครั้งใหญ่และประกาศเปิดตัวโมเดลการรู้จำเสียงโอเพ่นซอร์สใหม่ Whisper-Medusa
โมเดลนี้ไม่ง่ายเลย มันเร็วกว่า Whisper อันโด่งดังของ OpenAI ถึง 50% เต็ม! มันถูกสร้างขึ้นบนพื้นฐานของ Whisper แต่ใช้สถาปัตยกรรม "ความสนใจแบบหลายหัว" ใหม่เพื่อทำนายจำนวนโทเค็นในคราวเดียว ไกลเกินกว่าของ OpenAI สินค้า. นอกจากนี้ รหัสและน้ำหนักยังได้รับการเผยแพร่บน Hugging Face ภายใต้ใบอนุญาต MIT ซึ่งอนุญาตให้ใช้ในการวิจัยและเชิงพาณิชย์ได้
Gill Hetz รองประธานฝ่ายวิจัยของ aiOla กล่าวว่าโอเพ่นซอร์สสามารถส่งเสริมนวัตกรรมและความร่วมมือของชุมชน ทำให้รวดเร็วและสมบูรณ์ยิ่งขึ้น งานนี้สามารถปูทางไปสู่ระบบปัญญาประดิษฐ์ที่ซับซ้อนซึ่งสามารถเข้าใจและตอบคำถามของผู้ใช้ได้เกือบเรียลไทม์
ในยุคนี้ที่โมเดลพื้นฐานสามารถสร้างเนื้อหาได้หลากหลาย การรู้จำเสียงขั้นสูงยังคงมีความสำคัญมาก ตัวอย่างเช่น Whisper สามารถจัดการคำพูดที่ซับซ้อนในภาษาและสำเนียงต่างๆ มีการดาวน์โหลดมากกว่า 5 ล้านครั้งต่อเดือน รองรับแอปพลิเคชั่นมากมาย และกลายเป็นมาตรฐานทองคำสำหรับการรู้จำเสียง
แล้วอะไรพิเศษเกี่ยวกับ Whisper-Medusa ของ aiOla?
บริษัทเปลี่ยนโครงสร้างของ Whisper และเพิ่มกลไกความสนใจแบบหลายหัว ซึ่งสามารถทำนายโทเค็นได้ครั้งละ 10 โทเค็น และเพิ่มความเร็วได้ 50% โดยไม่กระทบต่อความแม่นยำ มีการใช้วิธีแมชชีนเลิร์นนิงที่มีการควบคุมดูแลอย่างไม่รัดกุมเพื่อฝึกโมเดลนี้ และจะมีเวอร์ชันที่มีประสิทธิภาพมากกว่านี้ในอนาคต ยิ่งไปกว่านั้น เนื่องจากกระดูกสันหลังของ Whisper-Medusa สร้างขึ้นบน Whisper การปรับปรุงความเร็วจะไม่ส่งผลต่อประสิทธิภาพการทำงาน
เมื่อฝึก Whisper-Medusa นั้น aiOla ใช้วิธีการเรียนรู้ของเครื่องที่เรียกว่าการควบคุมดูแลแบบอ่อนแอ ในส่วนหนึ่งของสิ่งนี้ ระบบจะหยุดองค์ประกอบหลักของ Whisper และฝึกฝนโมดูลการทำนายโทเค็นเพิ่มเติมโดยใช้การถอดเสียงที่สร้างโดยโมเดลเป็นป้ายกำกับ
เมื่อถูกถามว่ามีบริษัทใดบ้างที่สามารถเข้าถึง Whisper-Medusa ได้ก่อนใคร Hetz กล่าวว่าพวกเขาได้รับการทดสอบกับกรณีการใช้งานข้อมูลองค์กรจริง และสามารถทำงานได้อย่างแม่นยำในสถานการณ์จริง ทำให้แอปพลิเคชันเสียงตอบสนองมากขึ้นในอนาคต ท้ายที่สุดแล้ว เขาเชื่อว่าความเร็วในการจดจำและการถอดเสียงที่เพิ่มขึ้นจะช่วยให้ระยะเวลาตอบสนองเร็วขึ้นสำหรับแอปพลิเคชันเสียง และปูทางไปสู่การตอบสนองแบบเรียลไทม์
ไฮไลท์:
เร็วขึ้น 50%: Whisper-Medusa ของ aiOla เร็วกว่าการรู้จำเสียง Whisper ของ OpenAI อย่างมาก
?ไม่สูญเสียความแม่นยำ: ความเร็วได้รับการปรับปรุงในขณะที่ยังคงความแม่นยำเช่นเดียวกับรุ่นดั้งเดิม
แนวโน้มการใช้งานในวงกว้าง: คาดว่าจะเพิ่มความเร็วในการตอบสนอง ปรับปรุงประสิทธิภาพ และลดต้นทุนในการใช้งานด้านเสียง
โดยรวมแล้ว โมเดล Whisper-Medusa ของ aiOla ซึ่งมีข้อได้เปรียบด้านความเร็วและคุณลักษณะแบบโอเพ่นซอร์ส คาดว่าจะสร้างคลื่นลูกใหม่ในด้านการรู้จำเสียงพูด และนำการปรับปรุงประสิทธิภาพที่สำคัญมาสู่แอปพลิเคชันเสียงพูดต่างๆ บรรณาธิการของ Downcodes จะยังคงให้ความสำคัญกับการพัฒนาและการมีส่วนร่วมของชุมชนของโมเดลนี้ต่อไป