Progresso significativo foi feito no campo da geração de imagens, mas as limitações dos modelos existentes impediram a unidade dos modelos de visão de linguagem. Este artigo apresenta um novo modelo de texto para imagem chamado Meissonic, que utiliza a tecnologia de modelagem de imagens mascarada (MIM) não autorregressiva para obter modelos de difusão de última geração (como SDXL) com apenas 1 bilhão de parâmetros necessários. Uma qualidade considerável de geração de imagem. O Meissonic melhora significativamente o desempenho e a eficiência do MIM com sua inovação arquitetônica, estratégias de codificação de localização e condições de amostragem otimizadas e atinge a geração de imagens de resolução de 1024 × 1024 em GPUs de consumo.
No coração de Meissonic está uma série de inovações arquitetônicas, estratégias avançadas de codificação de posição e condições de amostragem otimizadas que melhoram significativamente o desempenho e a eficiência do MIM. Além disso, o Meissonic também utiliza dados de treinamento de alta qualidade, integra micro-condições com base nas pontuações de preferência humana e adota camadas de compactação para melhorar ainda mais a fidelidade e a resolução da imagem.
Ao contrário de grandes modelos de difusão, como SDXL e Deepfloyd-XL, o Meissonic possui apenas 1 bilhão de parâmetros, mas pode gerar imagens de alta qualidade com resolução de 1024 × 1024 e pode ser executado em GPUs de nível de consumo com apenas 8 GB de memória de vídeo sem modelo adicional otimização. Além disso, o Meissonic facilita a geração de imagens com fundos de cores sólidas, que geralmente requerem ajuste de ajuste fino ou compensação de ruído em modelos de difusão.
Para obter treinamento eficiente, o processo de treinamento da Meissonic é dividido em quatro etapas cuidadosamente projetadas:
O primeiro estágio: entenda os conceitos básicos de dados maciços. O Meissonic usa o conjunto de dados Filled Laion-2b para treinar a resolução 256 × 256 para aprender conceitos básicos.
Etapa 2: Alinhe o texto e as imagens com instruções longas. A resolução de treinamento é aprimorada para 512 × 512, e pares de textos de imagem sintética de alta qualidade e conjuntos de dados internos são usados para melhorar a capacidade do modelo de entender pistas descritivas longas.
Etapa 3: Mestre com a compactação para obter maior geração de resolução. Ao introduzir camadas de compressão de características, o Meissonic pode fazer a transição perfeita de 512 × 512 para 1024 × 1024 geração e treinada com pares selecionados de texto de imagem de alta resolução de alta qualidade.
Etapa 4: Otimize a geração de imagem estética de alta resolução. Nesse estágio, o modelo usa uma taxa de aprendizado menor para ajuste fino e adiciona pontuações de preferência humana como microcondições para melhorar o desempenho do modelo na geração de imagens de alta qualidade.
O Meissonic demonstra desempenho e eficiência superiores através de uma variedade de métricas quantitativas e qualitativas, incluindo HPs, MPS, benchmarking geneval e avaliação de GPT4O. Comparado com Dall-E2 e SDXL, o Meissonic alcançou desempenho competitivo no desempenho humano e no alinhamento de texto, além de mostrar sua eficiência.
Além disso, o Meissonic teve um bom desempenho em edição de imagem a imagem zero. No conjunto de dados EMU-EDIT, o Meissonic alcançou os principais resultados em sete operações diferentes, incluindo mudanças de fundo, alterações de conteúdo de imagem, alterações de estilo, remoção de objetos, adições de objetos, modificações locais e mudanças de cor/textura, todas as quais nenhum deles precisa Para treinar ou ajustar os conjuntos de dados específicos de edição de imagem.
Endereço do projeto: https://github.com/viiika/meissonic
Endereço em papel: https://arxiv.org/pdf/2410.08261
Em resumo, os modelos meissônicos fizeram avanços significativos na eficiência e na qualidade da geração de imagens, fornecendo novas direções para o desenvolvimento de futuros modelos de visão de idiomas. Seus recursos leves permitem que ele seja executado no hardware do consumidor e demonstre seus poderosos recursos na edição de imagem de amostra zero, com amplas perspectivas de aplicativos.