Recientemente, un equipo de investigación de la Universidad de Nueva York, el MIT y Google publicó un estudio innovador que propone un marco innovador diseñado para resolver el problema del cuello de botella en el tiempo de inferencia de los modelos de difusión. Este marco combina inteligentemente la retroalimentación del validador y un algoritmo de búsqueda de candidatos ruidoso para mejorar significativamente el rendimiento del modelo generativo al introducir recursos informáticos adicionales mientras se mantiene un número fijo de pasos de eliminación de ruido. Esta investigación no solo logró excelentes resultados en múltiples pruebas de referencia, sino que también proporcionó una referencia valiosa para el desarrollo futuro de sistemas de verificación más especializados para tareas de generación visual.
El marco se implementa principalmente mediante la introducción de validadores para proporcionar retroalimentación y la implementación de algoritmos para descubrir mejores candidatos de ruido. El equipo de investigación utilizó Inception Score y Fréchet Inception Distance como validadores y realizó experimentos basados en el modelo SiT-XL previamente entrenado. Los resultados experimentales muestran que este método mejora efectivamente la calidad de la muestra, especialmente logrando avances significativos en ImageReward y Verifier Ensemble.
Los resultados experimentales muestran que el marco funciona bien en múltiples puntos de referencia. En la prueba DrawBench, la evaluación de LLM Grader confirmó que el método de verificación de búsqueda puede mejorar continuamente la calidad de la muestra. En particular, ImageReward y Verifier Ensemble han logrado mejoras significativas en varias métricas, gracias a sus capacidades de evaluación precisa y su alta coherencia con las preferencias humanas.
Este estudio no solo confirma la efectividad del método de expansión computacional basado en búsqueda, sino que también revela el sesgo inherente de diferentes verificadores, señalando el camino para el desarrollo futuro de sistemas de verificación más especializados para tareas de generación visual. Este descubrimiento es de gran importancia para mejorar el rendimiento general de los modelos de generación de IA.
Esta investigación proporciona nuevas ideas para mejorar la eficiencia del razonamiento de los modelos de difusión. El marco y los métodos propuestos merecen una mayor investigación y aplicación. Proporciona un valor de referencia importante para el desarrollo de futuros modelos de generación de IA y también anuncia una calidad más eficiente y superior. La tecnología de generación de imágenes de IA está por llegar.