أصدرت أكاديمية Alibaba Damo تحديثًا رئيسيًا لنموذج اللغة متعدد الوسائط واسع النطاق Qwen2-VL في 30 أغسطس 2024. يُحقق هذا التحديث تطورات كبيرة في فهم الصور ومعالجة الفيديو والدعم متعدد اللغات ويضع معايير أداء جديدة. لا يعمل نموذج Qwen2-VL على تحسين فهم المعلومات المرئية فحسب، بل يتمتع أيضًا بقدرات متقدمة على فهم الفيديو ووظائف وكيل التصور المتكاملة، مما يمكّنه من أداء التفكير واتخاذ القرارات الأكثر تعقيدًا. بالإضافة إلى ذلك، فإن الدعم الموسع متعدد اللغات يجعل من السهل استخدامه عالميًا.
لقد حقق نموذج Qwen2-VL تحسينات كبيرة في فهم الصور ومعالجة الفيديو والدعم متعدد اللغات، مما يضع معيارًا جديدًا لمؤشرات الأداء الرئيسية. تشتمل الميزات الجديدة لنموذج Qwen2-VL على قدرات محسنة لفهم الصور تتيح فهمًا وتفسيرًا أكثر دقة للمعلومات المرئية، وقدرات فهم الفيديو المتقدمة التي تمكن النموذج من تحليل محتوى الفيديو الديناميكي في الوقت الفعلي وإمكانيات وكيل التصور المتكاملة التي تحول النموذج إلى وكيل قوي للاستدلال المعقد وصنع القرار ودعم موسع متعدد اللغات، مما يجعله أكثر سهولة وفعالية في بيئات لغوية مختلفة؛
فيما يتعلق بالبنية التقنية، يطبق Qwen2-VL دعم الدقة الديناميكية ويمكنه معالجة الصور بأي دقة دون تقسيمها إلى كتل، وبالتالي ضمان الاتساق بين مدخلات النموذج والمعلومات المتأصلة في الصورة. بالإضافة إلى ذلك، فإن ابتكار تضمين الموضع الدوار متعدد الوسائط (M-ROPE) يمكّن النموذج من التقاط ودمج النص أحادي الأبعاد والرؤية ثنائية الأبعاد ومعلومات موضع الفيديو ثلاثي الأبعاد في وقت واحد.
يحتفظ طراز Qwen2-VL-7B بنجاح بدعم مدخلات الصور والصور المتعددة والفيديو بمقياس 7B، ويؤدي أداءً جيدًا في مهام فهم المستندات وفهم النص متعدد اللغات القائم على الصور.
وفي الوقت نفسه، أطلق الفريق أيضًا نموذج 2B مُحسّنًا للنشر على الأجهزة المحمولة، على الرغم من أن عدد المعلمات هو 2B فقط، إلا أنه يعمل بشكل جيد في فهم الصور والفيديو واللغات المتعددة.
رابط النموذج:
Qwen2-VL-2B-Instruct: https://www.modelscope.cn/models/qwen/Qwen2-VL-2B-Instruct
Qwen2-VL-7B-Instruct: https://www.modelscope.cn/models/qwen/Qwen2-VL-7B-Instruct
يمثل تحديث نموذج Qwen2-VL طفرة جديدة في تكنولوجيا نماذج اللغة متعددة الوسائط وواسعة النطاق، وتوفر إمكاناتها القوية في معالجة الصور والفيديو واللغات المتعددة آفاقًا واسعة للتطبيقات المستقبلية. كما يوفر إطلاق الإصدارين 7B و2B خيارات أكثر مرونة لسيناريوهات التطبيقات المختلفة.