Uma equipe de pesquisa da Universidade Nacional de Cingapura desenvolveu uma nova estrutura de geração de imagens chamada OminiControl, que melhora significativamente a flexibilidade e a eficiência da geração de imagens. Ele combina habilmente o condicionamento de imagem e um modelo de transformador de difusão pré-treinado (DiT) para obter capacidades de controle sem precedentes, e até mesmo a integração complexa de assuntos pode ser facilmente alcançada. O editor de Downcodes lhe dará uma compreensão aprofundada da singularidade do OminiControl e das mudanças que ele traz no campo da geração de imagens.
Simplificando, desde que você forneça uma imagem do material, você pode usar o OminiControl para integrar o tema da imagem do material na imagem gerada. Por exemplo, o editor do Downcodes carregou a imagem do material à esquerda e digitou a palavra "O homem do chip é colocado ao lado da mesa de um consultório médico, com um estetoscópio colocado sobre a mesa". do seguinte modo:
O núcleo do OminiControl reside no seu "mecanismo de reutilização de parâmetros". Este mecanismo permite que o modelo DiT lide efetivamente com as condições da imagem com menos parâmetros adicionais. Isto significa que, comparado aos métodos existentes, o OminiControl precisa apenas de 0,1% a 0,1% mais parâmetros para alcançar funções poderosas. Além disso, é capaz de lidar uniformemente com múltiplas tarefas de condicionamento de imagem, como geração baseada em assunto e aplicação de condições de alinhamento espacial, como bordas, mapas de profundidade, etc. Esta flexibilidade é particularmente útil para tarefas de geração orientadas por tópicos.
A equipe de pesquisa também enfatizou que o OminiControl alcança essas capacidades treinando imagens geradas, o que é particularmente importante para a geração orientada por tópicos. Após extensa avaliação, o OminiControl supera significativamente os modelos UNet existentes e os modelos de adaptação DiT tanto na geração orientada por tópicos quanto nas tarefas de geração condicional alinhadas espacialmente. O resultado desta pesquisa traz novas possibilidades para o campo criativo.
Para apoiar uma pesquisa mais ampla, a equipe também lançou um conjunto de dados de treinamento chamado Subjects200K, que contém mais de 200.000 imagens com identidade consistente e fornece um pipeline eficiente de síntese de dados. Este conjunto de dados fornecerá aos pesquisadores um recurso valioso para ajudá-los a explorar ainda mais a tarefa de geração de consenso sobre o tema.
O lançamento do Omini não só melhora a eficiência e o efeito da geração de imagens, mas também oferece mais possibilidades de criação artística.
Experiência online: https://huggingface.co/spaces/Yuanshi/OminiControl
github: https://github.com/Yuanshi9815/OminiControl
Artigo: https://arxiv.org/html/2411.15098v2
O surgimento do OminiControl marca um salto significativo na tecnologia de geração de imagens. Seu eficiente mecanismo de reutilização de parâmetros e poderosos recursos de controle abriram novos caminhos para a criação artística e a pesquisa científica. No futuro, com o desenvolvimento contínuo da tecnologia, acredito que o OminiControl desempenhará um papel importante em mais campos e nos trará uma experiência de geração de imagens mais incrível.