Недавно исследовательская группа из Нью-Йоркского университета, Массачусетского технологического института и Google опубликовала революционное исследование, предложив инновационную структуру, предназначенную для решения проблемы узкого места во времени вывода в диффузионных моделях. Эта структура умело сочетает в себе обратную связь валидатора и алгоритм поиска зашумленных кандидатов, чтобы значительно повысить производительность генеративной модели за счет введения дополнительных вычислительных ресурсов при сохранении фиксированного количества шагов шумоподавления. Это исследование не только позволило добиться отличных результатов в многочисленных тестах производительности, но и предоставило ценную информацию для будущей разработки более специализированных систем проверки для задач визуальной генерации.
Эта структура в основном реализуется путем введения валидаторов для обеспечения обратной связи и реализации алгоритмов для обнаружения лучших кандидатов на шум. Исследовательская группа использовала Inception Score и Fréchet Inception Distance в качестве валидаторов и провела эксперименты на основе предварительно обученной модели SiT-XL. Результаты экспериментов показывают, что этот метод эффективно улучшает качество выборки, особенно достигая значительного прогресса в ImageReward и Verifier Ensemble.
Результаты экспериментов показывают, что платформа хорошо работает во многих тестах. В тесте DrawBench оценка LLM Grader подтвердила, что метод проверки поиска может постоянно улучшать качество выборки. В частности, ImageReward и Verifier Ensemble добились значительных улучшений в различных показателях благодаря своим возможностям точной оценки и высокой совместимости с предпочтениями людей.
Это исследование не только подтверждает эффективность метода вычислительного расширения на основе поиска, но также выявляет присущую различным верификаторам предвзятость, указывая путь для будущего развития более специализированных систем верификации для задач визуальной генерации. Это открытие имеет большое значение для повышения общей производительности моделей генерации ИИ.
Это исследование дает новые идеи для повышения эффективности рассуждений диффузионных моделей. Предложенные структура и методы достойны дальнейшего исследования и применения. Они обеспечивают важную справочную ценность для разработки будущих моделей поколения ИИ, а также предвещают более эффективное и более высокое качество. Приближается технология генерации изображений с помощью искусственного интеллекта.