เซ็นเซอร์ที่มีประโยชน์เริ่มต้นของสหรัฐอเมริกาได้เปิดตัวรูปแบบการจดจำเสียงโอเพนซอร์สที่เรียกว่า Moonshine โดยมีวัตถุประสงค์เพื่อปรับปรุงประสิทธิภาพของการประมวลผลข้อมูลเสียง เมื่อเทียบกับ Whisper ของ OpenAI Moonshine นั้นประหยัดกว่าในทรัพยากรการคำนวณและเพิ่มความเร็วในการประมวลผลเพิ่มขึ้นห้าครั้งโดยเฉพาะอย่างยิ่งสำหรับฮาร์ดแวร์ที่มีทรัพยากรและแอพพลิเคชั่นเรียลไทม์ สถาปัตยกรรมที่ยืดหยุ่นและการปรับเวลาในการประมวลผลแบบไดนามิกตามความยาวเสียงทำให้มันโดดเด่นเมื่อประมวลผลคลิปเสียงสั้นและลดค่าใช้จ่ายในการประมวลผลได้อย่างมีประสิทธิภาพ Moonshine มีสองเวอร์ชันเล็กและฐานโดยมีพารามิเตอร์ 27.1 ล้านและ 61.5 ล้านตามลำดับซึ่งทั้งสองอย่างนี้ดีกว่าประสิทธิภาพของรุ่นที่คล้ายกันในการใช้ทรัพยากร
ซึ่งแตกต่างจาก Whisper ที่แบ่งเสียงออกเป็นคลิป 30 วินาทีคงที่ Moonshine ปรับเวลาในการประมวลผลตามความยาวเสียงจริง สิ่งนี้ทำให้มันทำงานได้ดีเมื่อจัดการคลิปเสียงที่สั้นลงลดค่าใช้จ่ายในการประมวลผลเนื่องจากการรองลงเป็นศูนย์
Moonshine มีสองรุ่น: รุ่นเล็กขนาดเล็กมีปริมาณพารามิเตอร์ 27.1 ล้านและรุ่นฐานขนาดใหญ่มีปริมาณพารามิเตอร์ 61.5 ล้าน ในทางตรงกันข้ามพารามิเตอร์โมเดลที่คล้ายกันของ OpenAi นั้นมีขนาดใหญ่ขึ้นโดยมี Whisper Tiny.en อยู่ที่ 37.8 ล้านและฐานเป็น 72.6 ล้าน
ผลการทดสอบแสดงให้เห็นว่าโมเดลขนาดเล็กของ Moonshine นั้นเทียบได้กับกระซิบในแง่ของความแม่นยำและใช้ทรัพยากรการคำนวณน้อยลง Moonshine ทั้งสองรุ่นต่ำกว่าเสียงกระซิบในอัตราความผิดพลาดของ Word (WER) สำหรับระดับเสียงและเสียงพื้นหลังที่หลากหลายแสดงประสิทธิภาพที่แข็งแกร่ง
ทีมวิจัยชี้ให้เห็นว่า Moonshine ยังคงมีที่ว่างสำหรับการปรับปรุงเมื่อประมวลผลชิปเสียงสั้นมาก (น้อยกว่าหนึ่งวินาที) เสียงสั้น ๆ เหล่านี้มีสัดส่วนของข้อมูลการฝึกอบรมเล็กน้อยและการเพิ่มการฝึกอบรมคลิปเสียงดังกล่าวอาจปรับปรุงประสิทธิภาพของโมเดล
นอกจากนี้ความสามารถออฟไลน์ของ Moonshine เปิดสถานการณ์แอปพลิเคชันใหม่และแอปพลิเคชันที่ไม่สามารถใช้งานได้ก่อนหน้านี้เนื่องจากข้อ จำกัด ของฮาร์ดแวร์เป็นไปได้ในขณะนี้ ซึ่งแตกต่างจาก Whisper ซึ่งต้องการการใช้พลังงานที่สูงขึ้น Moonshine เหมาะสำหรับการทำงานบนสมาร์ทโฟนและอุปกรณ์ขนาดเล็กเช่น Raspberry Pi เซ็นเซอร์ที่มีประโยชน์คือการใช้ Moonshine เพื่อพัฒนา Torre นักแปลภาษาอังกฤษ-สเปน
รหัสของ Moonshine ได้รับการเผยแพร่บน GitHub และผู้ใช้จำเป็นต้องทราบว่าระบบการถอดรหัส AI เช่น Whisper อาจประสบกับข้อผิดพลาด การศึกษาบางชิ้นแสดงให้เห็นว่า Whisper มีโอกาส 1.4% ของข้อมูลเท็จเมื่อสร้างเนื้อหาโดยเฉพาะอย่างยิ่งสำหรับผู้ที่มีอุปสรรคด้านภาษาด้วยอัตราความผิดพลาดที่สูงขึ้น
ทางเข้าโครงการ: https://github.com/usefulsensors/moonshine
ประเด็นสำคัญ:
Moonshine เป็นรูปแบบการจดจำเสียงโอเพ่นซอร์สที่ประมวลผลเร็วกว่า Whisper ของ Openai ห้าเท่า
รุ่นนี้สามารถปรับเวลาการประมวลผลตามความยาวเสียงโดยเฉพาะอย่างยิ่งเหมาะสำหรับคลิปเสียงสั้น ๆ
Moonshine รองรับการทำงานแบบออฟไลน์และเหมาะสำหรับใช้กับทรัพยากรที่ จำกัด
ในระยะสั้น Moonshine นำความเป็นไปได้ใหม่ ๆ มาสู่เทคโนโลยีการจดจำเสียงด้วยความเร็วในการประมวลผลที่มีประสิทธิภาพสถาปัตยกรรมที่ยืดหยุ่นและความต้องการทรัพยากรต่ำโดยเฉพาะอย่างยิ่งในอุปกรณ์ที่ จำกัด ทรัพยากรและสถานการณ์แอปพลิเคชันแบบเรียลไทม์ คุณสมบัติของโอเพ่นซอร์สยังช่วยให้นักพัฒนาพัฒนาและนำไปใช้และคุ้มค่าที่จะให้ความสนใจและรอคอย