Bytes da Universidade de Hong Kong criados em conjunto: O modelo biográfico textual auto -regressivo Llamagen Open Source, a geração de imagens nunca foi fácil - artigos de IA

Autor：Eve Cole Data da Última Atualização：2025-02-21 19:00:04

A Llamagen, um modelo de geração de imagens autoregressivas desenvolvido em conjunto pela Universidade de Hong Kong e pela Bytedance, está lançando uma revolução no campo da geração de imagens. Como um trabalho inovador baseado na arquitetura da LLAMA, ele não apenas rompe as limitações do modelo de difusão tradicional na tecnologia, mas também desperta respostas entusiasmadas na comunidade de código aberto.

No referência do teste ImageNet, o Llamagen superou os modelos de difusão convencionais, como LDM e DIT, com excelente desempenho. Ao recorrer o tokenizador de imagem, a Llamagen alcançou vantagens significativas nos conjuntos de dados ImageNet e Coco, e seu desempenho superou modelos conhecidos como VQGAN, VIT-VQGAN e Maskgi.

O sucesso de Llamagen é construído em três pilares técnicos principais: compactação/quantizador de imagem avançada, modelo de geração de imagens escaláveis e dados de treinamento de alta qualidade, rastreados cuidadosamente. A equipe de pesquisa adotou uma arquitetura da CNN semelhante ao VQ-GAN para converter imagens contínuas em tokens discretos.

Na primeira fase do treinamento, a llamagena treinou em um subconjunto de 50m de Laion-Coco com uma resolução de imagem de 256 × 256. A equipe de pesquisa garantiu a qualidade dos dados de treinamento por meio de padrões rígidos de triagem, incluindo URL de imagem eficaz, pontuação estética, pontuação na marca d'água etc. O segundo estágio está ajustando fino em imagens internas de alta qualidade de qualidade de 10 milhões de escalas, aumentando a resolução da imagem para 512 × 512, otimizando ainda mais o efeito de geração.

A vantagem principal do llamagen é o seu excelente tokenizador de imagem e a escalabilidade da arquitetura llama. Nos testes reais de geração, o llamageno mostrou forte competitividade em indicadores -chave como o FID, é precisão e recall. Comparado com o modelo autoregressivo anterior, o Llamagen teve um desempenho excelentemente em todas as ordens de parâmetros, definindo uma nova referência para o campo da geração de imagens.

Embora a Llamagen tenha alcançado resultados notáveis, a equipe de pesquisa disse que este é apenas o começo da fase estável V1 de difusão. As instruções futuras do desenvolvimento incluirão o suporte à maior resolução, mais proporção de aspecto, controlabilidade mais forte e novas áreas, como a geração de vídeo. Esses planos indicam que a llamagen continuará a liderar a inovação na tecnologia de geração de imagens em um campo mais amplo.

Atualmente, a Llamagen foi aberta para experiência on -line, e os usuários podem experimentar pessoalmente essa tecnologia revolucionária através do espaço llamageno em abraçar o rosto. Ao mesmo tempo, o lançamento de llamagen de código aberto também fornece uma plataforma para desenvolvedores e pesquisadores globais participarem e contribuirem, promovendo em conjunto o avanço da tecnologia de geração de imagens. O endereço do projeto e o endereço de experiência on -line são: https://top.aibase.com/tool/llamagen e https://huggingface.co/spaces/foundationvision/llamagen, respectivamente.