أصدرت شركة Rhymes AI الناشئة ومقرها طوكيو أول نموذج لها في مجال الذكاء الاصطناعي، Aria، وهو نموذج خبير هجين متعدد الوسائط مفتوح المصدر (MoE). علم محرر Downcodes أن أداء Aria جيد في معالجة مجموعة متنوعة من المدخلات مثل النص والتعليمات البرمجية والصور ومقاطع الفيديو، كما أن قدراتها تتفوق حتى على بعض نماذج الأعمال المعروفة. تستخدم Aria بنية وزارة التعليم الفريدة لزيادة الكفاءة الحسابية من خلال العديد من الخبراء المتخصصين، ولديها نافذة سياقية متعددة الوسائط تصل إلى 24.9 مليار معلمة و64000 رمز مميز، مما يسمح لها بالتعامل مع بيانات الإدخال الأطول. تعاونت Rhymes AI أيضًا مع AMD لتحسين أداء النموذج وأطلقت تطبيق البحث BeaGo استنادًا إلى أجهزة AMD.
تم تصميم Aria لتوفير إمكانات فهم ومعالجة فائقة عبر مجموعة متنوعة من تنسيقات الإدخال، بما في ذلك النص والتعليمات البرمجية والصور والفيديو. يختلف نموذج MoE عن نموذج Transformer التقليدي، حيث يستبدل طبقة التغذية الأمامية بالعديد من الخبراء المحترفين. عند معالجة كل رمز إدخال، تختار وحدة التوجيه مجموعة فرعية من الخبراء لتنشيطها، وبالتالي تحسين الكفاءة الحسابية وتقليل عدد معلمات التنشيط لكل رمز مميز.
يمكن لوحدة فك ترميز Aria تنشيط 3.5 مليار معلمة لكل رمز نصي، ويحتوي النموذج بأكمله على 24.9 مليار معلمة. للتعامل مع المدخلات المرئية، صممت Aria أيضًا برنامج تشفير مرئي خفيف الوزن يحتوي على 438 مليون معلمة يمكنها تحويل المدخلات المرئية ذات الأطوال والأحجام ونسب العرض إلى الارتفاع المختلفة إلى رموز مرئية. بالإضافة إلى ذلك، تصل نافذة السياق متعدد الوسائط الخاصة بـ Aria إلى 64000 رمزًا مميزًا، مما يعني أنها تستطيع التعامل مع بيانات إدخال أطول.
فيما يتعلق بالتدريب، ينقسم Rhymes AI إلى أربع مراحل، فهو يستخدم أولاً البيانات النصية للتدريب المسبق، ثم يقدم بيانات متعددة الوسائط، يليها تدريب طويل التسلسل، وأخيرًا الضبط الدقيق.
في هذه العملية، استخدمت Aria إجمالي 6.4 تريليون رمز نصي و400 مليار رمز متعدد الوسائط للتدريب المسبق. جاءت البيانات من مجموعات بيانات معروفة مثل Common Crawl وLAION، وتم إجراء بعض التحسينات الاصطناعية.
وفقًا للاختبارات المعيارية ذات الصلة، تتفوق Aria في الأداء على نماذج مثل Pixtral-12B وLlama-3.2-11B في مهام متعددة الوسائط واللغات والبرمجة، كما أن تكاليف الاستدلال لديها أقل بسبب معلمات التنشيط الأقل.
بالإضافة إلى ذلك، تعمل Aria بشكل جيد عند معالجة مقاطع الفيديو ذات الترجمات أو المستندات متعددة الصفحات، وتتفوق قدرتها على فهم مقاطع الفيديو والمستندات الطويلة على النماذج الأخرى مفتوحة المصدر مثل GPT-4o mini وGemini1.5Flash .
لسهولة الاستخدام، تصدر Rhymes AI الكود المصدري لـ Aria على GitHub بموجب ترخيص Apache2.0، مما يدعم الاستخدام الأكاديمي والتجاري. وفي الوقت نفسه، توفر أيضًا إطارًا تدريبيًا يمكنه ضبط Aria لمصادر وتنسيقات بيانات متعددة على وحدة معالجة رسومات واحدة. ومن الجدير بالذكر أن Rhymes AI قد توصلت إلى تعاون مع AMD لتحسين أداء النموذج وعرضت تطبيق بحث يسمى BeaGo، والذي يمكن تشغيله على أجهزة AMD لتزويد المستخدمين بنتائج بحث أكثر شمولاً للنص والصور باستخدام الذكاء الاصطناعي.
تسليط الضوء على:
Aria هو أول نموذج ذكاء اصطناعي هجين متعدد الوسائط ومفتوح المصدر في العالم.
تتفوق Aria على العديد من النماذج النظيرة عند معالجة مجموعة متنوعة من المدخلات مثل النصوص والصور ومقاطع الفيديو.
تتعاون Rhymes AI مع AMD لتحسين أداء النموذج وإطلاق تطبيق البحث BeaGo الذي يدعم وظائف متعددة.
بشكل عام، أدى المصدر المفتوح والأداء العالي لنموذج Aria إلى تحقيق اختراقات جديدة في مجال الذكاء الاصطناعي وتوفير أدوات قوية للمطورين والباحثين. وتمنحه قدراته المتعددة الوسائط وكفاءته الحسابية العالية إمكانات كبيرة في التطبيقات المستقبلية. يتطلع محرر Downcodes إلى تطبيق Aria وتطويره في المزيد من المجالات.