Uma equipe de pesquisa da Universidade Nacional de Cingapura desenvolveu uma nova estrutura de geração de imagens chamada OminiControl, que melhora significativamente a flexibilidade e a eficiência da geração de imagens por meio de um engenhoso mecanismo de reutilização de parâmetros. O OminiControl usa o modelo de transformador de difusão pré-treinado (DiT), combinado com condições de imagem, para obter recursos poderosos de integração de temas e alinhamento espacial. Mesmo com apenas alguns parâmetros adicionais, ele pode alcançar resultados impressionantes. Ele é capaz de lidar com uma variedade de tarefas de condicionamento de imagens, como geração baseada em assunto e alinhamento espacial usando informações como bordas, mapas de profundidade, etc., o que mostra grandes vantagens em tarefas de geração de imagens orientadas por assunto.
Na era digital de hoje, a tecnologia de geração de imagens avança a um ritmo surpreendente. Recentemente, uma equipa de investigação da Universidade Nacional de Singapura propôs um novo framework - OminiControl, com o objetivo de melhorar a flexibilidade e eficiência da geração de imagens. Esta estrutura traz capacidades de controle sem precedentes, combinando condições de imagem e fazendo uso total do modelo Diffusion Transformer (DiT) já treinado.
Simplificando, desde que você forneça uma imagem do material, você pode usar o OminiControl para integrar o tema da imagem do material na imagem gerada. Por exemplo, o editor carregou a imagem do material à esquerda e digitou a palavra “O homem do chip é colocado ao lado da mesa de um consultório médico, com um estetoscópio colocado sobre a mesa”. :
O núcleo do OminiControl reside no seu "mecanismo de reutilização de parâmetros". Este mecanismo permite que o modelo DiT lide efetivamente com as condições da imagem com menos parâmetros adicionais. Isto significa que, comparado aos métodos existentes, o OminiControl precisa apenas de 0,1% a 0,1% mais parâmetros para alcançar funções poderosas. Além disso, é capaz de lidar uniformemente com múltiplas tarefas de condicionamento de imagem, como geração baseada em assunto e aplicação de condições de alinhamento espacial, como bordas, mapas de profundidade, etc. Esta flexibilidade é particularmente útil para tarefas de geração orientadas por tópicos.
A equipe de pesquisa também enfatizou que o OminiControl alcança essas capacidades treinando imagens geradas, o que é particularmente importante para a geração orientada por tópicos. Após extensa avaliação, o OminiControl supera significativamente os modelos UNet existentes e os modelos de adaptação DiT tanto na geração orientada por tópicos quanto nas tarefas de geração condicional alinhadas espacialmente. O resultado desta pesquisa traz novas possibilidades para o campo criativo.
Para apoiar uma pesquisa mais ampla, a equipe também lançou um conjunto de dados de treinamento chamado Subjects200K, que contém mais de 200.000 imagens com identidade consistente e fornece um pipeline eficiente de síntese de dados. Este conjunto de dados fornecerá aos pesquisadores um recurso valioso para ajudá-los a explorar ainda mais a tarefa de geração de consenso sobre o tema.
O lançamento do Omini não só melhora a eficiência e o efeito da geração de imagens, mas também oferece mais possibilidades de criação artística. À medida que a tecnologia continua a avançar, a geração de imagens no futuro será mais inteligente e personalizada.
Experiência online: https://huggingface.co/spaces/Yuanshi/OminiControl
github: https://github.com/Yuanshi9815/OminiControl
Artigo: https://arxiv.org/html/2411.15098v2
Destaque:
OminiControl utiliza um mecanismo de reutilização de parâmetros para tornar o controle de geração de imagens mais poderoso e eficiente.
A estrutura pode lidar com múltiplas tarefas de condição de imagem ao mesmo tempo, como bordas, mapas de profundidade, etc., para se adaptar a diferentes necessidades criativas.
A equipe lançou o Subjects200K, um conjunto de dados com mais de 200.000 imagens, para facilitar futuras pesquisas e explorações.
O surgimento do OminiControl marca um novo marco na tecnologia de geração de imagens. Seu eficiente mecanismo de reutilização de parâmetros e poderosos recursos multitarefa fornecem aos artistas e pesquisadores ferramentas poderosas e também anunciam o potencial ilimitado da futura tecnologia de geração de imagens. Sinta-se à vontade para visitar o link fornecido para saber mais detalhes e experimentar o OminiControl.