Récemment, une équipe de recherche de l'Université de New York, du MIT et de Google a publié une étude révolutionnaire proposant un cadre innovant conçu pour résoudre le problème du goulot d'étranglement du temps d'inférence des modèles de diffusion. Ce cadre combine intelligemment les retours du validateur et un algorithme de recherche de candidats bruités pour améliorer considérablement les performances du modèle génératif en introduisant des ressources informatiques supplémentaires tout en maintenant un nombre fixe d'étapes de débruitage. Cette recherche a non seulement obtenu d'excellents résultats dans plusieurs tests de référence, mais a également fourni une référence précieuse pour le développement futur de systèmes de vérification plus spécialisés pour les tâches de génération visuelle.
Le cadre est principalement mis en œuvre en introduisant des validateurs pour fournir des commentaires et en mettant en œuvre des algorithmes pour découvrir de meilleurs candidats de bruit. L’équipe de recherche a utilisé Inception Score et Fréchet Inception Distance comme validateurs et a mené des expériences basées sur le modèle SiT-XL pré-entraîné. Les résultats expérimentaux montrent que cette méthode améliore efficacement la qualité des échantillons, en réalisant notamment des progrès significatifs dans ImageReward et Verifier Ensemble.
Les résultats expérimentaux montrent que le framework fonctionne bien sur plusieurs benchmarks. Dans le test DrawBench, l'évaluation de LLM Grader a confirmé que la méthode de vérification par recherche peut améliorer continuellement la qualité des échantillons. En particulier, ImageReward et Verifier Ensemble ont réalisé des améliorations significatives dans diverses mesures, grâce à leurs capacités d'évaluation précises et leur grande cohérence avec les préférences humaines.
Cette étude confirme non seulement l'efficacité de la méthode d'expansion informatique basée sur la recherche, mais révèle également les biais inhérents aux différents vérificateurs, ouvrant la voie au développement futur de systèmes de vérification plus spécialisés pour les tâches de génération visuelle. Cette découverte revêt une grande importance pour améliorer les performances globales des modèles de génération d’IA.
Cette recherche fournit de nouvelles idées pour améliorer l'efficacité du raisonnement des modèles de diffusion. Le cadre et les méthodes proposés méritent des recherches et des applications plus approfondies. Ils fournissent une valeur de référence importante pour le développement de futurs modèles de génération d'IA, et annoncent également une qualité plus efficace et supérieure. La technologie de génération d’images IA arrive.