เมื่อเร็วๆ นี้ บริษัทปัญญาประดิษฐ์ของอิสราเอล aiOla ได้เปิดตัวโมเดลการรู้จำคำพูดแบบโอเพ่นซอร์สที่เรียกว่า Whisper Medusa โมเดลดังกล่าวประสบความสำเร็จในด้านความเร็วอย่างมาก และความเร็วในการประมวลผลก็เร็วกว่าโมเดล Whisper ของ OpenAI ถึง 50% ความก้าวหน้าครั้งนี้ดึงดูดความสนใจอย่างกว้างขวางในอุตสาหกรรม และหลักอยู่ที่การออกแบบสถาปัตยกรรมที่ได้รับการปรับปรุงและวิธีการฝึกอบรมที่เป็นนวัตกรรม Whisper Medusa ไม่เพียงแต่เร็วขึ้นเท่านั้น แต่ยังรักษาความแม่นยำและความเสถียรในระดับสูง ซึ่งนำความเป็นไปได้ใหม่ๆ มาสู่การพัฒนาเทคโนโลยีการรู้จำเสียง
เมื่อเร็วๆ นี้ aiOla บริษัทปัญญาประดิษฐ์ของอิสราเอล ได้สร้างความก้าวหน้าครั้งใหญ่ในด้านเทคโนโลยีการรู้จำคำพูด และได้เปิดตัวโมเดลการรู้จำเสียงแบบโอเพ่นซอร์สที่เรียกว่า Whisper Medusa ความเร็วในการประมวลผลของรุ่นใหม่นี้เร็วกว่ารุ่น Whisper ของ OpenAI ถึง 50% ซึ่งดึงดูดความสนใจอย่างกว้างขวางในอุตสาหกรรม
นวัตกรรมหลักของ Whisper Medusa คือการออกแบบสถาปัตยกรรมที่ได้รับการปรับปรุง aiOla ได้ปรับเปลี่ยนสถาปัตยกรรมดั้งเดิมของ Whisper และแนะนำกลไกความสนใจแบบหลายหัว กลไกนี้ช่วยให้แบบจำลองสามารถมุ่งเน้นไปที่ข้อมูลจากพื้นที่ย่อยการเป็นตัวแทนที่แตกต่างกันได้พร้อมกัน โดยใช้หัวความสนใจหลายหัวพร้อมกัน นวัตกรรมนี้ช่วยให้โมเดลสามารถทำนายโทเค็นได้ครั้งละสิบโทเค็น แทนที่จะใช้โทเค็นแบบเดิมครั้งละหนึ่งโทเค็น ซึ่งช่วยปรับปรุงความเร็วการทำนายคำพูดและรันไทม์ในการสร้างได้อย่างมาก
เป็นที่น่าสังเกตว่า Whisper Medusa เพิ่มความเร็วโดยไม่ทำให้ประสิทธิภาพลดลง เนื่องจากระบบกระดูกสันหลังยังคงใช้ Whisper อยู่ จึงรับประกันความแม่นยำและความเสถียรของโมเดล ในระหว่างกระบวนการฝึกอบรม aiOla ใช้วิธีการเรียนรู้ของเครื่องที่เรียกว่าการควบคุมดูแลแบบอ่อนแอ โดยเฉพาะอย่างยิ่ง พวกเขาหยุดองค์ประกอบหลักของ Whisper และใช้การถอดเสียงที่สร้างโดยโมเดลเป็นป้ายกำกับเพื่อฝึกโมดูลการทำนายโทเค็นเพิ่มเติม วิธีการฝึกอบรมที่เป็นนวัตกรรมนี้ช่วยปรับปรุงประสิทธิภาพและความแม่นยำในการเรียนรู้ของโมเดลให้ดียิ่งขึ้น
การเปิดตัว Whisper Medusa แบบโอเพ่นซอร์สอาจมีผลกระทบอย่างมากต่อการพัฒนาเทคโนโลยีการรู้จำคำพูด ไม่เพียงแต่จะให้เครื่องมือใหม่อันทรงพลังแก่นักวิจัยและนักพัฒนาเท่านั้น แต่ยังอาจขับเคลื่อนการพัฒนาแอปพลิเคชันประมวลผลคำพูดที่เร็วขึ้นและมีประสิทธิภาพมากขึ้นอีกด้วย ในบริบทของความต้องการการโต้ตอบด้วยเสียงที่เพิ่มขึ้น ความก้าวหน้าทางเทคโนโลยีนี้จะเปิดโอกาสใหม่ ๆ สำหรับการประยุกต์ใช้ปัญญาประดิษฐ์ในด้านการรู้จำเสียงอย่างไม่ต้องสงสัย
ด้วยการเปิดตัว Whisper Medusa เราคาดหวังว่าจะได้เห็นแอปพลิเคชั่นที่เป็นนวัตกรรมมากขึ้นตามรุ่นนี้ ตั้งแต่ผู้ช่วยอัจฉริยะไปจนถึงการแปลแบบเรียลไทม์ไปจนถึงระบบควบคุมด้วยเสียง ซึ่งทั้งหมดนี้อาจได้รับการปรับปรุงประสิทธิภาพอย่างมีนัยสำคัญ ความก้าวหน้านี้ไม่เพียงแต่เป็นก้าวสำคัญในเทคโนโลยีการรู้จำคำพูดเท่านั้น แต่ยังเป็นการร่างพิมพ์เขียวที่มีประสิทธิภาพและราบรื่นยิ่งขึ้นสำหรับการโต้ตอบระหว่างปัญญาประดิษฐ์และมนุษย์ในอนาคต
ที่อยู่โครงการ: https://github.com/aiola-lab/whisper-medusa
กอดหน้า: https://huggingface.co/aiola/whisper-medusa-v1
โอเพ่นซอร์สและประสิทธิภาพสูงของ Whisper Medusa บ่งชี้ว่าเทคโนโลยีการรู้จำเสียงจะนำมาซึ่งการพัฒนาคลื่นลูกใหม่ โดยนำประสบการณ์ที่ราบรื่นและมีประสิทธิภาพมากขึ้นมาสู่แอปพลิเคชันเสียงต่างๆ และส่งเสริมการประยุกต์ใช้เทคโนโลยีปัญญาประดิษฐ์ในสาขาต่างๆ มากขึ้น เราหวังว่าจะได้เห็นแอปพลิเคชันที่เป็นนวัตกรรมมากขึ้นตามโมเดลนี้เกิดขึ้น