في الآونة الأخيرة، نشر فريق بحث من جامعة نيويورك، ومعهد ماساتشوستس للتكنولوجيا، وجوجل دراسة اختراقية، تقترح إطارًا مبتكرًا مصممًا لحل مشكلة عنق الزجاجة الزمنية للاستدلال في نماذج الانتشار. يجمع هذا الإطار بذكاء بين تعليقات المدقق وخوارزمية البحث عن المرشح لتحسين أداء النموذج التوليدي بشكل كبير من خلال تقديم موارد حوسبة إضافية مع الحفاظ على عدد ثابت من خطوات تقليل الضوضاء. لم يحقق هذا البحث نتائج ممتازة في اختبارات قياس الأداء المتعددة فحسب، بل قدم أيضًا مرجعًا قيمًا للتطوير المستقبلي لأنظمة تحقق أكثر تخصصًا لمهام التوليد المرئي.
يتم تنفيذ الإطار بشكل أساسي من خلال تقديم أدوات التحقق من الصحة لتقديم الملاحظات، وتنفيذ الخوارزميات لاكتشاف المرشحين الأفضل للضوضاء. استخدم فريق البحث نقاط البداية ومسافة بداية فريشيه كمدققين وأجرى تجارب بناءً على نموذج SiT-XL المُدرب مسبقًا. تظهر النتائج التجريبية أن هذه الطريقة تعمل على تحسين جودة العينة بشكل فعال، خاصة تحقيق تقدم كبير في ImageReward وVerifier Ensemble.
تظهر النتائج التجريبية أن الإطار يعمل بشكل جيد على معايير متعددة. في اختبار DrawBench، أكد تقييم LLM Grader أن طريقة التحقق من البحث يمكنها تحسين جودة العينة بشكل مستمر. وعلى وجه الخصوص، حققت شركتا ImageReward وVerifier Ensemble تحسينات كبيرة في المقاييس المختلفة، وذلك بفضل قدرات التقييم الدقيقة والاتساق العالي مع التفضيلات البشرية.
لا تؤكد هذه الدراسة فعالية طريقة التوسع الحسابي القائم على البحث فحسب، بل تكشف أيضًا عن التحيز الكامن لمختلف أدوات التحقق، مما يشير إلى الطريق للتطوير المستقبلي لأنظمة تحقق أكثر تخصصًا لمهام التوليد المرئي. ولهذا الاكتشاف أهمية كبيرة لتحسين الأداء العام لنماذج توليد الذكاء الاصطناعي.
يقدم هذا البحث أفكارًا جديدة لتحسين كفاءة الاستدلال لنماذج الانتشار، ويستحق الإطار والأساليب المقترحة مزيدًا من البحث والتطبيق، فهو يوفر قيمة مرجعية مهمة لتطوير نماذج توليد الذكاء الاصطناعي المستقبلية، كما يبشر بجودة أكثر كفاءة تكنولوجيا توليد الصور بالذكاء الاصطناعي قادمة.