أعلن مختبر شنغهاي للذكاء الاصطناعي مؤخرًا عن ترقية النموذج الكبير متعدد الوسائط InternLM-XComposer الذي طوره إلى الإصدار 2.5 (IXC-2.5). حقق هذا الإصدار اختراقات كبيرة في فهم السياق الطويل، وفهم اللغة المرئية وتوسيع التطبيق، وتحسين فهم الصور النصية وقدرات إنشائها بشكل كبير، وتجاوز النماذج مفتوحة المصدر الحالية في اختبارات قياس الأداء المتعددة. حتى أن بعض المؤشرات قابلة للمقارنة مع GPT-4V وGemini Pro قابل للمقارنة. يُظهر IXC-2.5 أداءً قويًا وإمكانات تطبيق واسعة، مما يضع معيارًا جديدًا لتطوير النماذج الكبيرة متعددة الوسائط.
في الآونة الأخيرة، تمت ترقية النموذج الكبير متعدد الوسائط InternLM-XComposer إلى الإصدار 2.5. وقد أدى هذا النموذج، الذي طوره مختبر شنغهاي للذكاء الاصطناعي، إلى تحسين فهم النص والصورة من خلال إمكانات الإدخال والإخراج الممتازة ذات السياق الطويل والتطبيقات الإبداعية اختراقات ثورية.
IXC-2.5 قادر على التعامل مع سياقات طويلة تصل إلى 96 كيلو بايت بسهولة، وذلك بفضل بيانات نص الصورة المتداخلة 24 كيلو بايت المستخدمة في التدريب. تتيح إمكانية السياق الطويل هذه لـ IXC-2.5 الأداء الجيد في المهام التي تتطلب سياقًا واسعًا للمدخلات والمخرجات.
بالمقارنة مع الإصدار السابق، يحتوي IXC-2.5 على ثلاث ترقيات رئيسية في فهم اللغة المرئية:
فهم فائق الدقة: يدعم IXC-2.5 الصور عالية الدقة لأي نسبة عرض إلى ارتفاع من خلال برنامج التشفير المرئي الأصلي 560×560ViT.
فهم الفيديو بدقة: تعامل مع الفيديو كصورة مركبة عالية الدقة تتكون من عشرات إلى مئات الإطارات، مع التقاط التفاصيل من خلال أخذ عينات كثيفة ودقة أعلى.
حوار متعدد المنعطفات ومتعدد الصور: يدعم الحوار متعدد المنعطفات والصور متعدد الأشكال للتفاعل الطبيعي مع البشر.
بالإضافة إلى التحسينات في الفهم، يقوم IXC-2.5 أيضًا بتوسيع تطبيقين مقنعين باستخدام معلمات LoRA الإضافية لإنشاء الصور النصية:
إنشاء صفحات ويب: استنادًا إلى تعليمات الصور النصية، يمكن لـ IXC-2.5 كتابة أكواد مصدر HTML وCSS وJavaScript لإنشاء صفحات ويب.
كتابة مقالات مصورة عالية الجودة: استخدم تقنيات سلسلة الأفكار (CoT) وتحسين التفضيلات المباشرة (DPO) المصممة خصيصًا لتحسين جودة محتوى كتابتك بشكل كبير.
تم تقييم IXC-2.5 بناءً على 28 معيارًا، وهو يتفوق على النماذج الحالية مفتوحة المصدر الحديثة من خلال 16 معيارًا. علاوة على ذلك، فقد طابق أو تجاوز GPT-4V وGemini Pro في 16 مهمة رئيسية. يثبت هذا الإنجاز بشكل كامل الأداء القوي وإمكانات التطبيق الواسعة لـ IXC-2.5.
عنوان الورقة: https://arxiv.org/pdf/2407.03320
عنوان المشروع: https://github.com/InternLM/InternLM-XComposer
بشكل عام، يمثل إصدار الإصدار IXC-2.5 تقدمًا كبيرًا في تكنولوجيا النماذج الكبيرة متعددة الوسائط، ويشير أدائها القوي وسيناريوهات التطبيق الغنية إلى مستقبل مشرق لتطوير تكنولوجيا الذكاء الاصطناعي في المستقبل. نتطلع إلى المزيد والمزيد من تحديثات الميزات القوية في المستقبل!