تقارير محرر Downcodes: أصدرت شركة Useful Sensors الناشئة في الولايات المتحدة نموذجًا مفتوح المصدر للتعرف على الكلام يسمى Moonshine، ويظهر هذا النموذج مزايا كبيرة من حيث كفاءة موارد الحوسبة وسرعة المعالجة، مقارنةً بنموذج Whisper الخاص بـ OpenAI. تم تصميم Moonshine لتنفيذ التطبيقات في الوقت الفعلي على أجهزة محدودة الموارد، وتمكنه بنيته المرنة من التكيف مع سيناريوهات التطبيقات المختلفة. يعد هذا إنجازًا كبيرًا للتطبيقات التي تتطلب التعرف على الكلام لتشغيلها على الأجهزة منخفضة الطاقة.
على عكس Whisper، الذي يعالج الصوت إلى مقاطع ثابتة مدتها 30 ثانية، يقوم Moonshine بضبط وقت المعالجة بناءً على طول الصوت الفعلي. وهذا يجعلها تؤدي أداءً جيدًا عند معالجة مقاطع صوتية أقصر، مما يقلل من عبء المعالجة بسبب عدم وجود أي حشوة.
يأتي Moonshine في نسختين: الإصدار الصغير الذي يحتوي على 27.1 مليون معلمة، والإصدار الأساسي الكبير الذي يحتوي على 61.5 مليون معلمة. بالمقارنة، فإن نماذج OpenAI المماثلة لها معلمات أكبر، حيث يبلغ حجم Whisper tiny.en 37.8 مليونًا، وbase.en 72.6 مليونًا.
تظهر نتائج الاختبار أن نموذج Moonshine's Tiny يعادل نموذج Whisper من حيث الدقة مع استهلاك موارد حاسوبية أقل. عبر مستويات الصوت المختلفة وضوضاء الخلفية، كان كلا الإصدارين من Moonshine أقل من Whisper في معدل خطأ الكلمات (WER)، مما يظهر أداءً قويًا.
لاحظ فريق البحث أن Moonshine لا يزال لديه مجال للتحسين عندما يتعلق الأمر بمعالجة المقاطع الصوتية القصيرة جدًا (أقل من ثانية واحدة). تمثل هذه التسجيلات الصوتية القصيرة نسبة صغيرة نسبيًا من بيانات التدريب، كما أن زيادة التدريب على هذه المقاطع الصوتية قد يؤدي إلى تحسين أداء النموذج.
بالإضافة إلى ذلك، تفتح إمكانيات Moonshine دون الاتصال بالإنترنت سيناريوهات تطبيقات جديدة، والتطبيقات التي كانت مستحيلة في السابق بسبب قيود الأجهزة أصبحت الآن ممكنة. على عكس Whisper، الذي يتطلب استهلاكًا أعلى للطاقة، فإن Moonshine مناسب للتشغيل على الهواتف الذكية والأجهزة الصغيرة مثل Raspberry Pi. تستخدم شركة Useful Sensors شركة Moonshine لتطوير مترجمها الإنجليزي-الإسباني Torre.
تم إصدار الكود الخاص بـ Moonshine على GitHub، ويجب على المستخدمين أن يدركوا أن أنظمة نسخ الذكاء الاصطناعي مثل Whisper قد تكون بها أخطاء. أظهرت بعض الدراسات أن لدى Whisper فرصة بنسبة 1.4% لاحتواء معلومات خاطئة عند إنشاء المحتوى، خاصة للأشخاص الذين يعانون من إعاقات لغوية، حيث يكون معدل الخطأ أعلى.
مدخل المشروع: https://github.com/usefulsensors/moonshine
إن ظهور نموذج التعرف على الكلام مفتوح المصدر من Moonshine يوفر إمكانيات جديدة لتطبيقات التعرف على الكلام على الأجهزة منخفضة الموارد، كما أن أدائه الفعال وبنيته المرنة تجعله يتمتع بآفاق تطبيقية واسعة في العديد من المجالات. ولكن يجب على المستخدمين أيضًا أن يكونوا على دراية بالأخطاء المحتملة وأن يستخدموها بحذر. يوصي محرر Downcodes بأن ينتبه الجميع إلى التحديثات والتحسينات اللاحقة.