أصدرت شركة Startup المفيدة في الولايات المتحدة نموذج التعرف على الصوت مفتوح المصدر يسمى Moonshine ، بهدف تحسين كفاءة معالجة بيانات الصوت. بالمقارنة مع Whisper's Openai ، فإن Moonshine أكثر اقتصادا في موارد الحوسبة وزيادة سرعة المعالجة بمقدار خمس مرات ، خاصة بالنسبة للأجهزة المقيدة بالموارد والتطبيقات في الوقت الفعلي. إن بنيةها المرنة وتعديلها الديناميكي لوقت المعالجة وفقًا لطول الصوت تجعلها رائعة عند معالجة مقاطع الصوت القصيرة وتقليل المعالجة النفقات العامة بشكل فعال. يوفر Moonshine نسختين ، Tiny and Base ، مع معلمات 27.1 مليون و 61.5 مليون ، على التوالي ، وكلاهما أفضل من أداء النماذج المماثلة في استخدام الموارد.
على عكس الهمس الذي يقسم الصوت إلى مقاطع ثابتة مدتها 30 ثانية ، يقوم Moonshine بضبط وقت المعالجة وفقًا لطول الصوت الفعلي. هذا يجعلها تعمل بشكل جيد عند التعامل مع مقاطع صوتية أقصر ، مما يقلل من المعالجة النفقات العامة بسبب حشوة الصفر.
يحتوي Moonshine على نسختان: يحتوي الإصدار الصغير الصغير على حجم معلمة قدره 27.1 مليون ، والإصدار الأساسي الكبير يحتوي على حجم معلمة قدره 61.5 مليون. على النقيض من ذلك ، فإن معلمات النموذج المماثلة لـ Openai أكبر ، مع وجود Whisper Tiny.en 37.8 مليون و BASE.EN 72.6 مليون.
تُظهر نتائج الاختبار أن نموذج Moonshine الصغير يشبه الهمس من حيث الدقة ويستهلك موارد الحوسبة الأقل. كلا الإصدارين من Moonshine أقل من الهمس في معدل خطأ الكلمات (WER) لمستويات الصوت المختلفة وضوضاء الخلفية ، مما يدل على أداء قوي.
أشار فريق البحث إلى أن Moonshine لا يزال لديه مجال للتحسين عند معالجة رقائق الصوت القصيرة للغاية (أقل من ثانية واحدة). تمثل هذه الصوت القصيرة نسبة صغيرة من بيانات التدريب ، وزيادة التدريب على مقاطع الصوت هذه قد يحسن أداء النموذج.
بالإضافة إلى ذلك ، تفتح إمكانات Moonshine في وضع عدم الاتصال سيناريوهات التطبيق الجديدة ، والتطبيقات التي لم تكن متوفرة من قبل بسبب قيود الأجهزة الآن ممكنة. على عكس Whisper ، الذي يتطلب استهلاكًا أعلى للطاقة ، فإن Moonshine مناسب للتشغيل على الهواتف الذكية والأجهزة الصغيرة مثل Raspberry Pi. تستخدم أجهزة الاستشعار المفيدة Moonshine لتطوير مترجمها في اللغة الإنجليزية Torre.
تم إصدار رمز Moonshine على GitHub ، ويحتاج المستخدمون إلى ملاحظة أن أنظمة نسخ الذكاء الاصطناعى مثل Whisper قد تعاني من أخطاء. أظهرت بعض الدراسات أن Whisper لديه فرصة بنسبة 1.4 ٪ للحصول على معلومات خاطئة عند إنشاء المحتوى ، خاصة للأشخاص الذين يعانون من حواجز اللغة ، مع ارتفاع معدلات الخطأ.
مدخل المشروع: https://github.com/usefulsensors/moonshine
النقاط الرئيسية:
Moonshine هو نموذج التعرف على الصوت مفتوح المصدر يعالج أسرع خمس مرات من Whisper's Whisper.
يمكن لهذا النموذج ضبط وقت المعالجة وفقًا لطول الصوت ، وخاصة مناسبة لمقاطع الصوت القصيرة.
يدعم Moonshine التشغيل في وضع عدم الاتصال وهو مناسب للاستخدام مع موارد محدودة.
باختصار ، يجلب Moonshine إمكانيات جديدة لتكنولوجيا التعرف على الصوت من خلال سرعة المعالجة الفعالة ، والهندسة المعمارية المرنة وانخفاض الطلب على الموارد ، وخاصة في الأجهزة المقيدة للموارد وسيناريوهات التطبيق في الوقت الفعلي. تسهل ميزات المصادر المفتوحة أيضًا المطورين إلى التحسين والتطبيق ، وتستحق الاهتمام والتطلع إليها.