حققت النماذج المرئية الكبيرة (LVLMs) تقدمًا كبيرًا في مجال فهم الصور، لكن "ظاهرة الوهم" أصبحت عنق الزجاجة في تطورها. لمعالجة هذه المشكلة، اقترح فريق مختبر Taotian Group Future Life طريقة جديدة تسمى "تحسين تفضيلات الرمز المميز" (TPO)، والتي تعمل بشكل فعال على تحسين التأثير البصري للنموذج من خلال تقديم آلية مكافأة التثبيت البصري ذاتية المعايرة، وبالتالي تقليل الاعتماد على المعلومات احتمال الهلوسة. يتمثل جوهر TPO في أتمتة إنشاء إشارات المكافأة على مستوى الرمز المميز، وتجنب التعليقات التوضيحية اليدوية المملة، وتعيين مكافآت لكل رمز مميز يعكس اعتماده على المعلومات المرئية، مما يحسن أداء النموذج.
أكبر ابتكار لـ TPO هو أنه يطبق إشارات مكافأة آلية على مستوى الرمز المميز. يمكن لهذه الطريقة أن تحدد تلقائيًا الرموز المميزة المثبتة بصريًا في بيانات التفضيلات، وتجنب التعليقات التوضيحية اليدوية الدقيقة، مع تعيين مكافآت لكل رمز مميز أثناء عملية التدريب التي تعكس اعتماده على المعلومات المرئية. تم تصميم إشارة المكافأة المثبتة بصريًا والتي تمت معايرتها ذاتيًا لتحسين اعتماد النموذج على المعلومات المرئية، وبالتالي التخفيف بشكل فعال من حدوث الهلوسة.
تظهر الأبحاث أن النماذج التي تستخدم TPO تتفوق بشكل كبير على الأساليب التقليدية في معايير التقييم المتعددة، خاصة في المهام الأكثر تعقيدًا، حيث تعتمد الإجابات الناتجة عن النموذج بشكل متزايد على معلومات الصورة بدلاً من المعرفة السابقة بنموذج اللغة. لا يؤدي هذا التقدم إلى تحسين فهم النموذج فحسب، بل يوفر أيضًا أساسًا نظريًا مهمًا لمزيد من البحث.
بالإضافة إلى ذلك، أجرى فريق البحث أيضًا تجارب استئصال على إعدادات معلمات مختلفة لـ TPO ووجد أن خطوات إضافة الضوضاء المحسنة واستراتيجيات توزيع المكافآت يمكن أن تزيد من تحسين أداء النموذج. يشير هذا الاكتشاف بلا شك إلى اتجاه البحث المستقبلي وتطبيق النماذج المرئية الكبيرة.
باختصار، يوفر هذا الإنجاز المبتكر لـ Taotian فكرة جديدة لتكنولوجيا المحاذاة متعددة الوسائط ويعزز التطبيق المتعمق لتكنولوجيا الذكاء الاصطناعي في مجالات الحياة والاستهلاك.
من خلال تطبيق طريقة TPO، يتم حل مشكلة "الوهم" للنماذج المرئية الكبيرة بشكل فعال، وتحسين موثوقية النموذج ودقته، وتوفير اتجاه جديد للتطوير المستقبلي للنماذج المرئية الكبيرة اتجاه جديد لتطبيق الذكاء الاصطناعي في الحياة الواقعية لقد وضع التطبيق أساسًا متينًا وله أهمية نظرية وقيمة تطبيقية مهمة. تساهم نتيجة البحث هذه بقوة جديدة في تطوير التكنولوجيا متعددة الوسائط.