أصدرت شركة الذكاء الاصطناعي الإسرائيلية الناشئة aiOla نموذجًا جديدًا للتعرف على الكلام مفتوح المصدر Whisper-Medusa، والذي تم تحسينه على Whisper الخاص بـ OpenAI وهو أسرع بنسبة 50٪، وهو مفتوح المصدر بموجب ترخيص MIT الخاص بـ Hugging Face والاستخدام التجاري المسموح به. سيقدم لك محرر Downcodes شرحًا تفصيليًا لهذا النموذج الجديد الجذاب.
قامت شركة الذكاء الاصطناعي الإسرائيلية الناشئة aiOla مؤخرًا بخطوة كبيرة وأعلنت عن إطلاق نموذج جديد مفتوح المصدر للتعرف على الكلام Whisper-Medusa.
هذا النموذج ليس بسيطًا، فهو أسرع بنسبة 50% من نموذج Whisper الشهير الخاص بـ OpenAI، وهو مبني على أساس Whisper، ولكنه يستخدم بنية "انتباه متعدد الرؤوس" جديدة للتنبؤ بعدد الرموز في وقت واحد وهو ما يتجاوز بكثير نموذج OpenAI. منتجات. علاوة على ذلك، فقد تم إصدار الكود والأوزان على موقع Hugging Face بموجب ترخيص من معهد ماساتشوستس للتكنولوجيا (MIT)، والذي يسمح بالبحث والاستخدام التجاري.
وقال جيل هيتز، نائب رئيس الأبحاث في aiOla، إن المصدر المفتوح يمكن أن يشجع الابتكار والتعاون المجتمعي، مما يجعله أسرع وأكثر اكتمالا. يمكن أن يمهد هذا العمل الطريق لأنظمة الذكاء الاصطناعي المعقدة التي يمكنها فهم أسئلة المستخدم والإجابة عليها في الوقت الفعلي تقريبًا.
في هذا العصر حيث يمكن للنماذج الأساسية إنتاج مجموعة متنوعة من المحتوى، لا يزال التعرف المتقدم على الكلام مهمًا للغاية. على سبيل المثال، يستطيع Whisper التعامل مع الكلام المعقد بلغات ولهجات مختلفة، ويتم تنزيله أكثر من 5 ملايين مرة شهريًا، ويدعم العديد من التطبيقات، وأصبح المعيار الذهبي للتعرف على الكلام.
إذًا ما الذي يميز Whisper-Medusa من aiOla؟
قامت الشركة بتغيير هيكل Whisper وأضافت آلية انتباه متعددة الرؤوس يمكنها التنبؤ بـ 10 رموز في المرة الواحدة وزيادة السرعة بنسبة 50% دون التأثير على الدقة. تم استخدام أسلوب تعلم آلي ضعيف الإشراف لتدريب هذا النموذج، وستكون هناك إصدارات أكثر قوة في المستقبل. والأكثر من ذلك، نظرًا لأن العمود الفقري لـ Whisper-Medusa مبني على Whisper، فإن تحسينات السرعة لن تأتي على حساب الأداء.
عند تدريب Whisper-Medusa، استخدمت aiOla طريقة للتعلم الآلي تسمى الإشراف الضعيف. وكجزء من هذا، قامت بتجميد المكونات الرئيسية لـ Whisper وتدريب وحدة إضافية للتنبؤ بالرمز المميز باستخدام النسخ الصوتية التي تم إنشاؤها بواسطة النموذج كتسميات.
وعندما سئل عما إذا كان بإمكان أي شركة الوصول المبكر إلى Whisper-Medusa، قال هيتز إنه تم اختبارها في حالات استخدام بيانات المؤسسة الحقيقية ويمكن تشغيلها بدقة في سيناريوهات العالم الحقيقي، مما يجعل التطبيقات الصوتية أكثر استجابة في المستقبل. وفي نهاية المطاف، يعتقد أن زيادة سرعات التعرف والنسخ ستتيح أوقات استجابة أسرع للتطبيقات الصوتية وتمهد الطريق لتوفير استجابات في الوقت الفعلي.
تسليط الضوء على:
أسرع بنسبة 50%: يعد برنامج Whisper-Medusa الخاص بشركة aiOla أسرع بكثير من برنامج Whisper للتعرف على الكلام الخاص بشركة OpenAI.
?عدم فقدان الدقة: تم تحسين السرعة مع الحفاظ على نفس دقة النموذج الأصلي.
آفاق واسعة للتطبيق: من المتوقع أن يؤدي ذلك إلى تسريع الاستجابة وتحسين الكفاءة وخفض التكاليف في التطبيقات الصوتية.
بشكل عام، من المتوقع أن يؤدي نموذج Whisper-Medusa الخاص بشركة aiOla، بميزة السرعة وسمات المصدر المفتوح، إلى إطلاق موجة جديدة في مجال التعرف على الكلام وتحقيق تحسينات كبيرة في الأداء لتطبيقات الكلام المختلفة. سيستمر محرر Downcodes في الاهتمام بالتطوير اللاحق ومساهمات المجتمع لهذا النموذج.