O editor do Downcodes aprendeu que o Google DeepMind e o Massachusetts Institute of Technology (MIT) alcançaram um grande avanço no campo da geração de texto para imagem. O novo modelo autoregressivo Fluid desenvolvido por eles apresenta excelente desempenho em uma escala de parâmetros de 10,5 bilhões, subvertendo a compreensão da indústria sobre modelos autorregressivos no campo de geração de imagens. O núcleo desta pesquisa reside na introdução inovadora de elementos de palavras contínuas e ordem de geração aleatória, o que melhora significativamente o desempenho e a escalabilidade do modelo e traz uma nova direção à tecnologia de geração de imagens.
O Google DeepMind e o Massachusetts Institute of Technology (MIT) divulgaram recentemente um importante resultado de pesquisa. O novo modelo autoregressivo Fluid desenvolvido pela equipe de pesquisa fez progressos inovadores no campo da geração de texto para imagem. O modelo tem excelente desempenho após ser expandido para uma escala de 10,5 bilhões de parâmetros.
Esta pesquisa subverte a percepção comum na indústria. Anteriormente, embora os modelos autorregressivos dominassem o campo do processamento de linguagem, eles eram considerados inferiores aos modelos de difusão como Stable Diffusion e Google Imagen3 na geração de imagens. Os pesquisadores melhoraram significativamente o desempenho e a escalabilidade do modelo autorregressivo, introduzindo de forma inovadora dois fatores principais de design: usando elementos de palavras contínuas em vez de elementos de palavras discretas e introduzindo ordem gerada aleatoriamente em vez de ordem fixa.
Em termos de processamento de informações de imagem, os elementos de palavras contínuas têm vantagens óbvias. Os tokens discretos tradicionais codificam regiões de imagem em códigos em um vocabulário limitado. Essa abordagem leva inevitavelmente à perda de informações e é difícil, mesmo para modelos grandes, gerar com precisão recursos detalhados, como olhos simétricos. Os elementos de palavras contínuas podem salvar informações mais precisas e melhorar significativamente a qualidade da reconstrução da imagem.
A equipe de pesquisa também inovou na sequência de geração de imagens. Os modelos autorregressivos tradicionais geralmente geram imagens em uma ordem fixa, da esquerda para a direita e de cima para baixo. Os pesquisadores tentaram uma abordagem sequencial aleatória, permitindo que o modelo previsse vários pixels em qualquer local em cada etapa. Este método funciona bem em tarefas que exigem uma boa compreensão da estrutura geral da imagem e obteve vantagens significativas no teste de benchmark GenEval que mede a correspondência de texto e imagens geradas.
O desempenho real do modelo Fluid confirma o valor da pesquisa. Depois de atingir 10,5 bilhões de parâmetros, o Fluid superou os modelos existentes em vários benchmarks importantes. É importante notar que o pequeno modelo Fluid com apenas 369 milhões de parâmetros atingiu a pontuação FID (7,23) do modelo Parti com 20 bilhões de parâmetros no conjunto de dados MS-COCO.
O resultado desta pesquisa mostra que modelos autorregressivos como o Fluid provavelmente se tornarão alternativas poderosas aos modelos de difusão. Comparado com modelos de difusão que requerem múltiplas passagens diretas e reversas, o Fluid precisa apenas de uma única passagem para gerar imagens. Essa vantagem de eficiência será mais óbvia à medida que o modelo for expandido.
Esta pesquisa traz novas possibilidades para o campo da geração de texto para imagem, e o surgimento do modelo Fluid também marca o surgimento de modelos autorregressivos no campo da geração de imagens. No futuro, podemos esperar mais aplicações e melhorias baseadas em modelos Fluid para promover ainda mais o avanço da tecnologia de geração de imagens de inteligência artificial. O editor do Downcodes continuará atento aos últimos desenvolvimentos neste campo e trazendo conteúdos mais interessantes aos leitores.