O editor de Downcodes levará você a conhecer o Meissonic, um modelo de geração de texto para imagem com apenas 1 bilhão de parâmetros que pode gerar imagens de alta definição 1024×1024. Ele rompe as limitações de modelos como Difusão Estável e eleva a tecnologia de modelagem de imagem de máscara não autorregressiva (MIM) a um novo nível. Seu desempenho e eficiência são comparáveis aos principais modelos de difusão, como SDXL. A inovação da Meissonic reside em seu design arquitetônico exclusivo, estratégia avançada de codificação posicional e condições de amostragem otimizadas, que permitem que ele seja executado em GPUs de consumo sem otimização adicional. Ainda mais surpreendente é que ele pode gerar facilmente imagens com fundos de cores sólidas, o que geralmente requer ajustes complexos em modelos de difusão.
O núcleo do Meissonic reside em uma série de inovações arquitetônicas, estratégias avançadas de codificação de posição e condições de amostragem otimizadas. Essas melhorias melhoram significativamente o desempenho e a eficiência do MIM. Além disso, a Meissonic aproveita dados de treinamento de alta qualidade, integra microcondicionamento com base em pontuações de preferência humana e emprega camadas de compressão de recursos para melhorar ainda mais a fidelidade e a resolução da imagem.
Ao contrário de grandes modelos de difusão, como SDXL e DeepFloyd-XL, Meissonic tem apenas 1 bilhão de parâmetros, mas pode gerar imagens de alta qualidade com resolução de 1024×1024 e pode ser executado em GPUs de consumo com apenas 8 GB de memória de vídeo sem qualquer modelo adicional otimização. Além disso, o Meissonic pode gerar facilmente imagens com fundos de cores sólidas, o que em modelos de difusão geralmente requer ajuste fino do modelo ou ajustes de compensação de ruído.
Para alcançar um treinamento eficiente, o processo de treinamento da Meissonic é dividido em quatro etapas cuidadosamente elaboradas:
A primeira etapa: Compreender conceitos básicos de dados massivos. Meissonic usa o conjunto de dados filtrados LAION-2B para treinar na resolução 256×256 para aprender conceitos básicos.
Fase 2: Alinhe texto e imagens usando pontas longas. A resolução de treinamento é aumentada para 512×512, e pares de imagem-texto sintéticos de alta qualidade e conjuntos de dados internos são usados para melhorar a capacidade do modelo de compreender pistas descritivas longas.
Estágio 3: Domine a compactação de recursos para obter geração de resolução mais alta. Ao introduzir uma camada de compactação de recursos, a Meissonic pode fazer a transição perfeita da geração 512×512 para 1024×1024 e treinar com uma seleção de pares imagem-texto de alta qualidade e alta resolução.
Etapa 4: Otimizando a geração de imagens estéticas de alta resolução. Nesta fase, o modelo é ajustado usando uma taxa de aprendizagem menor e pontuações de preferência humana são adicionadas como microcondições para melhorar o desempenho do modelo na geração de imagens de alta qualidade.
A Meissonic demonstra desempenho e eficiência superiores em uma variedade de métricas quantitativas e qualitativas, incluindo HPS, MPS, benchmarks GenEval e avaliações GPT4o. Comparado com DALL-E2 e SDXL, o Meissonic alcança desempenho competitivo tanto no desempenho humano quanto no alinhamento de texto, ao mesmo tempo que demonstra sua alta eficiência.
Além disso, Meissonic é excelente na edição imagem a imagem sem amostra. No conjunto de dados EMU-Edit, a Meissonic alcançou resultados líderes em sete operações diferentes, incluindo mudança de fundo, mudança de conteúdo de imagem, mudança de estilo, remoção de objeto, adição de objeto, modificação local e mudança de cor/textura, todas as quais Nenhuma requer treinamento ou multa -ajuste de dados ou conjuntos de instruções específicos para edição de imagens.
Endereço do projeto: https://github.com/viiika/Meissonic
Endereço do artigo: https://arxiv.org/pdf/2410.08261
Com sua eficiência e alto desempenho, a Meissonic traz novas possibilidades para a área de geração de imagens. Seu design leve torna-o mais fácil de ser usado por usuários em massa e também fornece novas ideias para futuras pesquisas. Amigos interessados podem visitar o endereço do projeto e o endereço da tese para obter mais informações.