A equipe de tecnologia de comercialização da ByteDance abriu o código-fonte de seu mais recente modelo de gráfico Vincent desenvolvido, Infinity. Este modelo fez avanços significativos na qualidade de geração de imagem e velocidade de inferência, superando muitos modelos líderes do setor, como Stable Diffusion 3 e HART, LlamaGen et al. A principal inovação do modelo Infinity está em sua estrutura autoregressiva Bitwise Token exclusiva e vocabulário infinito, que permite ao modelo capturar detalhes mais precisos da imagem e melhorar significativamente o limite superior de qualidade e desempenho das imagens geradas. Este artigo apresentará em detalhes os detalhes técnicos, desempenho e situação de código aberto do modelo Infinity.
No campo da inteligência artificial, o modelo Infinity, a mais recente conquista da equipe de tecnologia de comercialização da ByteDance, tornou-se o novo rei no campo dos gráficos vicentinos autorregressivos com seu excelente desempenho e tecnologia inovadora. Este novo modelo de código aberto não apenas supera o Stable Diffusion3 na qualidade de geração de imagem, mas também apresenta vantagens significativas na velocidade de inferência.
A principal inovação do modelo Infinity é a adoção da estrutura autoregressiva Bitwise Token. Essa estrutura melhora significativamente a capacidade do modelo de detectar sinais de alta frequência, prevendo o "Token Bitwise" refinado composto de +1 ou -1 no próximo. nível de capacidade de captura, resultando em imagens mais detalhadas. Além disso, o modelo Infinity expande o vocabulário ao infinito, melhorando muito o espaço de representação do tokenizador de imagem e melhorando o limite superior de desempenho do venograma autorregressivo.
Na comparação de desempenho, o modelo Infinity teve um desempenho excelente entre os métodos autorregressivos, superando em muito HART, LlamaGen, Emu3 e outros métodos, e derrotou o modelo HART na avaliação humana com uma taxa de vitória de quase 90%. Ao mesmo tempo, o Infinity também derrotou os modelos de difusão da SOTA, como PixArt-Sigma, SD-XL, SD3-Meidum, etc. com taxas de vitória de 75%, 80% e 65%, comprovando suas vantagens entre modelos do mesmo tamanho .
Outra característica importante do modelo Infinity são suas boas características de escala. À medida que o tamanho do modelo aumenta e os recursos de treinamento são investidos, a perda do conjunto de validação diminui constantemente e a precisão do conjunto de validação aumenta constantemente. Além disso, a Infinity também propôs tecnologia de autocorreção de bits, que aumenta a capacidade de autocorreção do modelo e alivia o problema de erro cumulativo durante o raciocínio autorregressivo.
Em termos de velocidade de inferência, o Infinity herda a vantagem de velocidade do VAR. O modelo 2B leva apenas 0,8 segundos para gerar uma imagem 1024x1024, que é 3 vezes mais rápido que o SD3-Medium do mesmo tamanho e 14 vezes mais rápido que o 12B Flux Dev. . O modelo 8B é 7 vezes mais rápido que o SD3.5 do mesmo tamanho. O modelo 20B leva 3 segundos para gerar uma imagem 1024x1024, que é quase 4 vezes mais rápido que o 12B Flux Dev.
Atualmente, o código de treinamento e inferência, a demonstração e os pesos do modelo Infinity foram lançados no armazém GitHub, e uma experiência de site também é fornecida para facilitar aos usuários a experiência e avaliação do efeito do modelo.
Página do projeto: https://foundationvision.github.io/infinity.project/
Em suma, o modelo Infinity trouxe novos avanços para o campo dos gráficos vicentinos autoregressivos com sua arquitetura técnica avançada, excelente desempenho e métodos convenientes de código aberto, que merecem atenção e mais pesquisas. Sua velocidade de inferência eficiente e capacidade de geração de imagens de alta qualidade proporcionam grande potencial em aplicações práticas.