รายงานตัวแก้ไข Downcodes: Useful Sensors สตาร์ทอัพในสหรัฐฯ ได้เปิดตัวโมเดลการรู้จำเสียงแบบโอเพ่นซอร์สที่เรียกว่า Moonshine โมเดลนี้แสดงให้เห็นถึงข้อได้เปรียบที่สำคัญในแง่ของประสิทธิภาพของทรัพยากรในการประมวลผลและความเร็วในการประมวลผล เมื่อเทียบกับโมเดล Whisper ของ OpenAI Moonshine ได้รับการออกแบบมาเพื่อใช้งานแอปพลิเคชันแบบเรียลไทม์บนฮาร์ดแวร์ที่มีทรัพยากรจำกัด และสถาปัตยกรรมที่ยืดหยุ่นช่วยให้สามารถปรับให้เข้ากับสถานการณ์การใช้งานต่างๆ ได้ นี่เป็นความก้าวหน้าครั้งสำคัญสำหรับแอปพลิเคชันที่ต้องการการรู้จำเสียงเพื่อทำงานบนอุปกรณ์ที่ใช้พลังงานต่ำ
ซึ่งแตกต่างจาก Whisper ซึ่งประมวลผลเสียงเป็นส่วนคงที่ 30 วินาที Moonshine ปรับเวลาการประมวลผลตามความยาวของเสียงจริง ทำให้ทำงานได้ดีเมื่อประมวลผลคลิปเสียงที่สั้นลง ซึ่งช่วยลดค่าใช้จ่ายในการประมวลผลเนื่องจากช่องว่างภายในเป็นศูนย์
Moonshine มีสองเวอร์ชัน: เวอร์ชัน Tiny ขนาดเล็กมีพารามิเตอร์ 27.1 ล้านพารามิเตอร์ และเวอร์ชัน Base ขนาดใหญ่มีพารามิเตอร์ 61.5 ล้านพารามิเตอร์ เมื่อเปรียบเทียบกันแล้ว โมเดลที่คล้ายกันของ OpenAI มีพารามิเตอร์ที่ใหญ่กว่า Whisper Tiny.en อยู่ที่ 37.8 ล้าน และ base.en อยู่ที่ 72.6 ล้าน
ผลการทดสอบแสดงให้เห็นว่าโมเดล Tiny ของ Moonshine มีความแม่นยำเทียบเท่ากับ Whisper ในขณะที่ใช้ทรัพยากรการประมวลผลน้อยกว่า ในระดับเสียงและเสียงรบกวนรอบข้างต่างๆ Moonshine ทั้งสองเวอร์ชันมีค่าต่ำกว่า Whisper ในด้านอัตราความผิดพลาดของคำ (WER) ซึ่งแสดงถึงประสิทธิภาพที่ยอดเยี่ยม
ทีมวิจัยตั้งข้อสังเกตว่า Moonshine ยังมีพื้นที่สำหรับการปรับปรุงเมื่อพูดถึงการประมวลผลคลิปเสียงที่สั้นมาก (น้อยกว่าหนึ่งวินาที) ไฟล์เสียงแบบสั้นเหล่านี้มีสัดส่วนค่อนข้างน้อยของข้อมูลการฝึก และการเพิ่มการฝึกคลิปเสียงดังกล่าวอาจช่วยปรับปรุงประสิทธิภาพของโมเดลได้
นอกจากนี้ ความสามารถออฟไลน์ของ Moonshine ยังเปิดโอกาสการใช้งานแอปพลิเคชันใหม่ๆ และแอปพลิเคชันที่ก่อนหน้านี้ไม่สามารถทำได้เนื่องจากข้อจำกัดด้านฮาร์ดแวร์ก็เป็นไปได้แล้ว ซึ่งแตกต่างจาก Whisper ซึ่งต้องใช้พลังงานสูงกว่า Moonshine เหมาะสำหรับการทำงานบนสมาร์ทโฟนและอุปกรณ์ขนาดเล็ก เช่น Raspberry Pi Useful Sensors ใช้ Moonshine เพื่อพัฒนา Torre นักแปลภาษาอังกฤษ-สเปน
รหัสสำหรับ Moonshine ได้รับการเผยแพร่บน GitHub และผู้ใช้จำเป็นต้องทราบว่าระบบการถอดเสียง AI เช่น Whisper อาจมีข้อผิดพลาด การศึกษาบางชิ้นแสดงให้เห็นว่า Whisper มีโอกาส 1.4% ที่จะมีข้อมูลเท็จเมื่อสร้างเนื้อหา โดยเฉพาะอย่างยิ่งสำหรับผู้ที่มีความบกพร่องทางภาษา ซึ่งมีอัตราข้อผิดพลาดสูงกว่า
ทางเข้าโครงการ: https://github.com/usefulsensors/moonshine
การเกิดขึ้นของโมเดลการรู้จำเสียงแบบโอเพ่นซอร์สของ Moonshine นำมาซึ่งความเป็นไปได้ใหม่ๆ สำหรับแอปพลิเคชันการรู้จำเสียงบนอุปกรณ์ที่มีทรัพยากรต่ำ ประสิทธิภาพที่มีประสิทธิภาพและสถาปัตยกรรมที่ยืดหยุ่นทำให้มีแนวโน้มการใช้งานที่กว้างขวางในหลายสาขา แต่ผู้ใช้ยังต้องตระหนักถึงข้อผิดพลาดที่อาจเกิดขึ้นและใช้ด้วยความระมัดระวัง บรรณาธิการของ Downcodes แนะนำให้ทุกคนใส่ใจกับการอัปเดตและการปรับปรุงที่ตามมา