A geração de texto para imagem de imagens fotorrealistas de alta resolução sempre foi um problema difícil no campo da visão computacional. Embora os métodos tradicionais de geração, como modelos de difusão e modelos autorregressivos de transformação, possam gerar imagens de alta qualidade, eles enfrentam problemas como enorme consumo de recursos computacionais e perda de detalhes. A nova estrutura "Infinity" proposta pela ByteDance visa resolver esses desafios. Melhora significativamente a eficiência de geração e a qualidade da imagem por meio de marcação inovadora em nível de bit e classificadores de vocabulário infinito.
No campo da geração de imagens, a tarefa de imagens fotorrealistas e de alta resolução sempre enfrentou múltiplos desafios, especialmente no processo de síntese de texto para imagem. Os métodos generativos tradicionais dependem principalmente de modelos de difusão e estruturas de transformação autorregressiva (VAR).
Embora esses modelos sejam capazes de produzir imagens de alta qualidade, eles consomem grandes quantidades de recursos computacionais, tornando-os inflexíveis para aplicações em tempo real. Ao mesmo tempo, o modelo VAR está sujeito a erros cumulativos no processamento de marcadores discretos, resultando na perda de detalhes na imagem gerada, afetando assim o realismo da imagem.
Para superar essas deficiências, a equipe de pesquisa da ByteDance lançou uma nova estrutura chamada “Infinity”, que foi projetada para melhorar a eficiência e a qualidade da síntese de texto para imagem.
O Infinity alcança uma representação mais refinada ao introduzir tags de nível de bit em vez das tradicionais tags de nível de índice, reduzindo significativamente os erros de quantização e melhorando o realismo das imagens geradas. Além disso, a estrutura usa um Classificador de Vocabulário Infinito (IVC) para estender o vocabulário do token para 2^64, reduzindo significativamente os requisitos de memória e computação.
A arquitetura Infinity consiste principalmente em três partes: um tagger quantizado em várias escalas de nível de bit que converte recursos de imagem em tags binárias para sobrecarga computacional; mecanismo de autocorreção que introduz inversões aleatórias de bits durante o processo de treinamento para melhorar a robustez do modelo a erros. A equipe de pesquisa usou grandes conjuntos de dados como LAION e OpenImages para treinamento e fez progressos significativos ao aumentar gradualmente a resolução da imagem de 256×256 para 1024×102.
Após avaliação, a Infinity apresentou excelente desempenho nos principais indicadores, com sua pontuação GenEval de 0. e Fréchet Inception Distance (FID) reduzida para 3,48, demonstrando sua melhoria na velocidade e qualidade de geração. O Infinity pode gerar imagens de alta resolução 1024×1024 em 0,8 segundos, demonstrando sua eficiência e confiabilidade. As imagens geradas pelo sistema não são apenas visualmente realistas e ricas em detalhes, mas também respondem com precisão a instruções de texto complexas, resultando em altas pontuações de preferência humana.
O lançamento do Infinity marca uma nova referência em síntese de texto para imagem de alta resolução, impulsionando o desenvolvimento da IA generativa ao resolver problemas de longa data de escalabilidade e qualidade de detalhes com um design inovador.
Artigo: https://arxiv.org/abs/2412.04431
Destaque:
? **Innovative Framework Infinity:** A estrutura Infinity lançada pela Bytedance melhora muito a eficiência da geração de imagens de alta resolução por meio de tokenização em nível de bit e classificadores de vocabulário ilimitados.
⚡ **Excelente desempenho:** O Infinity supera os modelos existentes nos principais indicadores de avaliação e pode gerar imagens de alta qualidade 1024×1024 em 0,8 segundos.
?️ ** Detalhes autênticos e capacidade de resposta: ** As imagens geradas não são apenas visualmente realistas, mas também respondem com precisão a solicitações de texto complexas, mostrando altas pontuações de preferência humana.
Em suma, a estrutura Infinity fornece uma solução eficiente e de alta qualidade para geração de texto em imagem de alta resolução, alcançando avanços significativos em velocidade, qualidade de imagem e capacidade de resposta a instruções de texto complexas, fornecendo uma plataforma poderosa para geração. da IA estabeleceu um novo marco.