أصدرت أكاديمية Alibaba Damo Valley2، وهو نموذج لغة متعدد الوسائط واسع النطاق يعتمد على سيناريوهات التجارة الإلكترونية، ويجمع هذا النموذج بين Qwen2.5 وSigLIP-384 ووحدات Eagle المبتكرة ومحولات الالتواء لتحسين أداء التجارة الإلكترونية والتطبيقات في مجال الفيديو القصير. تغطي مجموعة بيانات Valley2 بيانات أسلوب OneVision، وبيانات التجارة الإلكترونية وبيانات الفيديو القصيرة الميدانية، وبيانات التفكير المتسلسل، وقد حققت نتائج ممتازة في العديد من الاختبارات المعيارية العامة، خاصة في التقييمات المتعلقة بالتجارة الإلكترونية. يوفر تحسين التصميم المعماري وإستراتيجية التدريب أفكارًا جديدة لتحسين أداء النماذج الكبيرة متعددة الوسائط.
أطلقت أكاديمية علي بابا دامو مؤخرًا نموذجًا لغويًا واسع النطاق متعدد الوسائط يسمى Valley2، وقد تم تصميم هذا النموذج بناءً على سيناريوهات التجارة الإلكترونية ويهدف إلى تحسين الأداء في مختلف المجالات وتوسيع التجارة الإلكترونية والاستخدام قصير المدى من خلال رؤية مرئية قابلة للتطوير. هندسة اللغة حدود التطبيق لمشاهد الفيديو. يستخدم Valley2 Qwen2.5 باعتباره العمود الفقري لـ LLM، مقترنًا ببرنامج التشفير المرئي SigLIP-384، ويجمع بين طبقات MLP والتلافيفات لتحويل الميزات بكفاءة. ويكمن ابتكارها في تقديم مفردات مرئية كبيرة ومحول تلافيفي (ConvAdapter) ووحدة Eagle، مما يعزز مرونة معالجة مدخلات العالم الحقيقي المتنوعة وكفاءة الاستدلال التدريبي.
تتكون بيانات Valley2 من بيانات نمط OneVision، وبيانات التجارة الإلكترونية ومجالات الفيديو القصيرة، وبيانات سلسلة التفكير (CoT) لحل المشكلات المعقدة. تنقسم عملية التدريب إلى أربع مراحل: محاذاة النص البصري، وتعلم المعرفة عالي الجودة، وضبط التعليمات، والتفكير المتسلسل بعد التدريب. في التجارب، كان أداء Valley2 جيدًا في العديد من الاختبارات المعيارية العامة، لا سيما تسجيل درجات عالية في MMBench، وMMStar، وMathVista وغيرها من المعايير، كما تفوق أيضًا على النماذج الأخرى ذات الحجم نفسه في الاختبار المعياري Ecom-VQA.
في المستقبل، تخطط أكاديمية Alibaba DAMO لإصدار نموذج شامل يشمل نماذج النصوص والصور والفيديو والصوت، وتقديم طريقة تدريب على التضمين متعدد الوسائط قائمة على Valley لدعم تطبيقات الاسترجاع والكشف النهائية.
يمثل إطلاق Valley2 تقدمًا مهمًا في مجال نماذج اللغات متعددة الوسائط واسعة النطاق، مما يوضح إمكانية تحسين أداء النموذج من خلال التحسين الهيكلي وبناء مجموعة البيانات وتحسين استراتيجية التدريب.
رابط النموذج:
https://www.modelscope.cn/models/bytedance-research/Valley-Eagle-7B
رابط الكود:
https://github.com/bytedance/Valley
رابط الورق:
https://arxiv.org/abs/2501.05901
لا يوضح إصدار Valley2 التكنولوجيا المتقدمة لأكاديمية Alibaba Damo في مجال النماذج الكبيرة متعددة الوسائط فحسب، بل يشير أيضًا إلى أن مجالات التجارة الإلكترونية والفيديو القصير ستفتح المزيد من التطبيقات المبتكرة القائمة على الذكاء الاصطناعي في المستقبل. نحن نتطلع إلى أن تكون Valley2 قادرة على تحسين وتوسيع سيناريوهات التطبيق الخاصة بها في المستقبل، مما يوفر خدمات أكثر ملاءمة وأكثر ذكاءً للمستخدمين.