A equipe de pesquisa do Instituto de Inteligência Artificial de Pequim lançou um novo modelo de geração de imagens OmniGen, que quebra a limitação de função única das ferramentas tradicionais de geração de imagens. Diferente de modelos como Stable Diffusion, OmniGen integra múltiplas funções, como geração de texto para imagem e edição de imagem em uma estrutura unificada, tornando-o um "versátil". O editor de Downcodes explicará detalhadamente o poder do OmniGen e suas perspectivas de aplicação.
Recentemente, a equipe de pesquisa do Instituto de Inteligência Artificial de Pequim lançou um novo modelo de geração de imagens chamado OmniGen.
Reprodutor completo de geração e edição de imagens
Comparado com ferramentas anteriores de geração de imagens, como Stable Diffusion, o maior destaque do OmniGen é que ele não se concentra mais apenas em uma única tarefa, mas possui vários recursos:
Ele pode lidar com uma variedade de tarefas de geração de imagens em uma estrutura unificada: desde texto até geração e edição de imagens. Pode-se dizer que é versátil.
Isso significa que os usuários só precisam fornecer palavras de alerta simples para controlar a geração de imagens e a edição precisa, e não precisam mais usar plug-ins como ControlNet e IP-Adapter para ajustar os detalhes da imagem!
Aqui, o AIbase se baseia em fornecer um prompt de efeito detalhado para fotografia criativa com uma câmera antiga. O efeito geral gerado é cheio de detalhes e o efeito é o seguinte:
Em vários testes, o OmniGen teve um desempenho impressionante, igualando-se aos modelos mais avançados do mercado para geração de texto para imagem. No benchmark GenEval, OmniGen usou apenas 0,1 bilhão de imagens para treinamento, enquanto SD3 usou mais de 1 bilhão de imagens.
Os recursos de edição de imagens são igualmente excelentes, com a capacidade de controlar com precisão as imagens de origem e as instruções de edição. Por exemplo, no conjunto de testes EMU-Edit, ele supera modelos bem conhecidos, como o InstructPix2Pix, e é até comparável ao atual modelo EMU-Edit de última geração.
Na tarefa de geração orientada por assuntos, o OmniGen demonstrou extraordinárias capacidades de personalização e é adequado para muitos campos, como criação artística e design publicitário.
Endereço de teste: https://huggingface.co/spaces/Shitao/OmniGen
Artigo: https://arxiv.org/html/2409.11340v1
OmniGen traz novos avanços no campo de geração de imagens com suas funções poderosas e desempenho eficiente. Seu método de operação simples e fácil de usar também reduz o limite para geração de imagens e fornece ferramentas criativas convenientes a mais usuários. Espera-se que OmniGen tenha aplicações mais amplas no futuro e promova o desenvolvimento da tecnologia de geração de imagens de inteligência artificial.