Apenas um bilhão de parâmetros! Modelo de geração de imagens AI Meissonic AI pode gerar imagens de alta qualidade em telefones celulares

Autor：Eve Cole Data da Última Atualização：2024-12-10 10:48:01

O editor de Downcodes relata: Surgiu um modelo de geração de imagens de IA de código aberto chamado Meissonic. Ele pode gerar imagens de alta qualidade usando apenas um bilhão de parâmetros. Pode ser chamado de gigante leve no campo da geração de imagens de IA. Isso se deve à arquitetura exclusiva do conversor e aos novos métodos de treinamento adotados pela equipe de P&D (pesquisadores do Alibaba, Skywork AI e de várias universidades). Meissonic não só pode ser executado em PCs de jogos comuns, mas também deverá implementar aplicativos de texto para imagem localizados em telefones celulares no futuro, o que reduzirá bastante o limite de entrada para geração de imagens de IA.

Recentemente, a equipe de pesquisa científica lançou em conjunto um modelo de geração de imagens de IA de código aberto chamado Meissonic. Surpreendentemente, este modelo pode gerar imagens de alta qualidade usando apenas um bilhão de parâmetros. Este design compacto dá à Meissonic o potencial para localizar aplicativos de texto para imagem em dispositivos móveis.

A equipe de P&D por trás desta tecnologia inclui pesquisadores do Alibaba, Skywork AI e de várias universidades. Eles usaram uma arquitetura de conversor exclusiva e novos métodos de treinamento para permitir que o Meissonic rodasse em PCs de jogos comuns e possivelmente até em telefones celulares no futuro.

O método de treinamento da Meissonic utiliza uma técnica chamada “modelagem de imagem mascarada”, que significa simplesmente que parte da imagem fica oculta durante o processo de treinamento. O modelo aprende como reconstruir peças faltantes com base em regiões visíveis e descrições textuais. Essa abordagem ajuda o modelo a compreender a relação entre os elementos da imagem e o texto.

A arquitetura da Meissonic permite gerar imagens de alta resolução de 1024x1024 pixels, sejam cenas realistas ou textos estilizados, emoticons ou até mesmo adesivos de desenhos animados.

Ao contrário dos modelos autoregressivos tradicionais que geram imagens gradualmente, o Meissonic prevê todas as informações da imagem ao mesmo tempo através da otimização iterativa paralela. Esta inovação reduz significativamente as etapas de decodificação, reduzindo o tempo em aproximadamente 99% e melhorando significativamente a velocidade de geração da imagem.

No processo de construção do modelo, os pesquisadores passaram por quatro etapas:

Primeiro, eles usaram 200 milhões de imagens de 256x256 pixels para ensinar os conceitos básicos do modelo, depois usaram 10 milhões de pares de imagem-texto estritamente selecionados para melhorar suas capacidades de compreensão de texto; Imagens 1024x1024 pixel por pixel; finalmente, eles realizaram ajustes finos que incorporaram dados sobre as preferências humanas para melhorar o desempenho do modelo.

Curiosamente, apesar de ter um número menor de parâmetros, a Meissonic superou alguns modelos maiores, como SDXL e DeepFloyd-XL em vários benchmarks, alcançando uma alta “Pontuação de Preferência Humana” de 28,83. Além disso, o Meissonic é capaz de corrigir e expandir imagens sem treinamento adicional, permitindo aos usuários adicionar facilmente partes ausentes da imagem ou aprimorar de forma criativa as imagens existentes.

A equipe de pesquisa acredita que este método pode promover o desenvolvimento rápido e de baixo custo de geradores de imagens de IA personalizados, e também deverá promover o desenvolvimento de aplicativos de texto para imagem em dispositivos móveis. Amigos interessados podem encontrar a versão demo no Hugging Face e visualizar o código do modelo no GitHub, que pode ser facilmente executado em uma GPU de consumidor com 8 GB de memória de vídeo comuns.

demonstração: https://huggingface.co/spaces/MeissonFlow/meissonic

Projeto: https://github.com/viiika/Meissonic

Destaque:

Meissonic é um modelo de IA de código aberto que pode gerar imagens de alta qualidade com apenas um bilhão de parâmetros, adequado para uso em PCs de jogos comuns e futuros dispositivos móveis.

Usando um método de treinamento de otimização iterativo paralelo, o Meissonic pode gerar imagens 99% mais rápido que os modelos tradicionais.

? Apesar de seu pequeno tamanho de parâmetro, o Meissonic supera modelos maiores em vários testes e permite pintura e expansão de imagens sem treinamento.

Em suma, o surgimento do Meissonic trouxe novas possibilidades para o campo da geração de imagens de IA. Vale a pena esperar pelo seu design leve e desempenho eficiente! O editor do Downcodes recomenda que todos acessem Hugging Face e GitHub para experimentar e explorar este poderoso modelo de IA.