Recentemente, uma equipe de pesquisa da Universidade de Nova York, do MIT e do Google publicou um estudo inovador, propondo uma estrutura inovadora projetada para resolver o problema do gargalo do tempo de inferência dos modelos de difusão. Esta estrutura combina habilmente o feedback do validador e um algoritmo de busca de candidatos ruidosos para melhorar significativamente o desempenho do modelo generativo, introduzindo recursos de computação adicionais, mantendo um número fixo de etapas de remoção de ruído. Esta pesquisa não só alcançou excelentes resultados em múltiplos testes de benchmark, mas também forneceu uma referência valiosa para o desenvolvimento futuro de sistemas de verificação mais especializados para tarefas de geração visual.
A estrutura é implementada principalmente através da introdução de validadores para fornecer feedback e da implementação de algoritmos para descobrir melhores candidatos a ruído. A equipe de pesquisa usou Inception Score e Fréchet Inception Distance como validadores e conduziu experimentos com base no modelo SiT-XL pré-treinado. Os resultados experimentais mostram que este método melhora efetivamente a qualidade da amostra, alcançando especialmente um progresso significativo no ImageReward e no Verifier Ensemble.
Os resultados experimentais mostram que a estrutura tem um bom desempenho em vários benchmarks. No teste DrawBench, a avaliação do LLM Grader confirmou que o método de verificação de pesquisa pode melhorar continuamente a qualidade da amostra. Em particular, o ImageReward e o Verifier Ensemble alcançaram melhorias significativas em várias métricas, graças às suas capacidades de avaliação precisas e à alta consistência com as preferências humanas.
Este estudo não apenas confirma a eficácia do método de expansão computacional baseado em busca, mas também revela o viés inerente de diferentes verificadores, apontando o caminho para o desenvolvimento futuro de sistemas de verificação mais especializados para tarefas de geração visual. Esta descoberta é de grande importância para melhorar o desempenho geral dos modelos de geração de IA.
Esta pesquisa fornece novas ideias para melhorar a eficiência do raciocínio dos modelos de difusão. A estrutura e os métodos propostos são dignos de mais pesquisas e aplicações. Fornece um valor de referência importante para o desenvolvimento de futuros modelos de geração de IA e também anuncia uma qualidade mais eficiente e superior. A tecnologia de geração de imagens AI está chegando.