قام فريق Qwen بفتح المصدر الأحدث لنموذج الاستدلال متعدد الوسائط QVQ، والذي تم بناؤه على Qwen2-VL-72B ويعمل على تحسين الفهم البصري وقدرات الاستدلال للذكاء الاصطناعي بشكل كبير. حققت QVQ درجة عالية بلغت 70.3 في مراجعة MMMU وتجاوزت النموذج السابق في معايير رياضية متعددة. ستقدم هذه المقالة بالتفصيل خصائص نموذج QVQ ومزاياه وقيوده واستخدامه، وستوفر روابط ذات صلة لتسهيل على القراء فهمه واستخدامه بشكل أكبر.
أعلن فريق Qwen مؤخرًا عن المصدر المفتوح لأحدث نموذج تفكير متعدد الوسائط QVQ، مما يمثل خطوة مهمة في الفهم البصري للذكاء الاصطناعي وقدرات حل المشكلات المعقدة. تم بناء هذا النموذج على Qwen2-VL-72B ويهدف إلى تحسين قدرات الذكاء الاصطناعي على التفكير من خلال الجمع بين اللغة والمعلومات المرئية. في تقييم MMMU، حقق QVQ درجة عالية تبلغ 70.3 وأظهر تحسينات كبيرة في الأداء مقارنةً بـ Qwen2-VL-72B-Instruct في الاختبارات المعيارية المتعددة المتعلقة بالرياضيات.
لقد أظهر نموذج QVQ مزايا خاصة في مهام التفكير المنطقي البصري، خاصة في المجالات التي تتطلب تفكيرًا تحليليًا معقدًا. على الرغم من الأداء الممتاز لـ QVQ-72B-Preview، أشار الفريق أيضًا إلى بعض القيود في النموذج، بما في ذلك مشكلات خلط اللغة وتبديل التعليمات البرمجية، وإمكانية الوقوع في أنماط المنطق الدائري، واعتبارات السلامة والأخلاق، وقيود الأداء والمعيار. وأكد الفريق أنه على الرغم من تحسن النموذج في الاستدلال البصري، إلا أنه لا يمكنه أن يحل محل قدرة Qwen2-VL-72B بشكل كامل. وخلال عملية الاستدلال البصري متعددة الخطوات، قد يفقد النموذج التركيز تدريجيًا على محتوى الصورة، مما يؤدي إلى الهلوسة.
قام فريق Qwen بتقييم QVQ-72B-Preview على أربع مجموعات من البيانات، بما في ذلك MMMU وMathVista وMathVision وOlympiadBench، وقد تم تصميم مجموعات البيانات هذه لفحص الفهم الشامل للنموذج وقدرات الاستدلال المتعلقة بالرؤية. كان أداء QVQ-72B-Preview جيدًا في هذه المعايير، مما أدى إلى سد الفجوة بشكل فعال مع النموذج الرائد.
لمزيد من توضيح تطبيق نموذج QVQ في مهام الاستدلال البصري، قدم فريق Qwen العديد من الأمثلة وشارك رابطًا للمدونة التقنية. بالإضافة إلى ذلك، قدم الفريق أيضًا أمثلة التعليمات البرمجية لاستدلال النموذج وكيفية استخدام Magic API-Inference لاستدعاء نموذج QVQ-72B-Preview مباشرة. يوفر API-Inference الخاص بـ Magic Platform الدعم لنموذج QVQ-72B-Preview، ويمكن للمستخدمين استخدام النموذج مباشرة من خلال استدعاءات API.
رابط النموذج:
https://modelscope.cn/models/Qwen/QVQ-72B-Preview
رابط التجربة:
https://modelscope.cn/studios/Qwen/QVQ-72B-preview
المدونة الصينية:
https://qwenlm.github.io/zh/blog/qvq-72b-preview
يوفر المصدر المفتوح لنموذج QVQ موارد قيمة لأبحاث الذكاء الاصطناعي متعدد الوسائط ويبشر أيضًا بمزيد من التطوير للذكاء الاصطناعي في مجال التفكير البصري في المستقبل. على الرغم من وجود بعض القيود، إلا أن أدائها الممتاز في العديد من الاختبارات المعيارية لا يزال مثيرًا للإعجاب. ونحن نتطلع إلى مزيد من التحسين والتحسين لنموذج QVQ في المستقبل.