Une équipe de recherche de l'Université nationale de Singapour a développé un nouveau cadre de génération d'images appelé OminiControl, qui améliore considérablement la flexibilité et l'efficacité de la génération d'images. Il combine intelligemment le conditionnement d'image et un modèle de transformateur de diffusion (DiT) pré-entraîné pour obtenir des capacités de contrôle sans précédent, même une intégration de sujet complexe peut être facilement réalisée. L'éditeur de Downcodes vous donnera une compréhension approfondie du caractère unique d'OminiControl et des changements qu'il apporte dans le domaine de la génération d'images.
En termes simples, tant que vous fournissez une image matérielle, vous pouvez utiliser OminiControl pour intégrer le thème de l'image matérielle dans l'image générée. Par exemple, l'éditeur de Downcodes a téléchargé l'image matérielle à gauche et a saisi le mot d'invite "Le chip man est placé à côté de la table dans un cabinet médical, avec un stéthoscope placé sur la table." comme suit:
Le cœur d'OminiControl réside dans son « mécanisme de réutilisation des paramètres ». Ce mécanisme permet au modèle DiT de gérer efficacement les conditions d'image avec moins de paramètres supplémentaires. Cela signifie que par rapport aux méthodes existantes, OminiControl n'a besoin que de 0,1 à 0,1 % de paramètres en plus pour réaliser des fonctions puissantes. De plus, il est capable de gérer uniformément plusieurs tâches de conditionnement d'image, telles que la génération basée sur le sujet et l'application de conditions d'alignement spatial, telles que les contours, les cartes de profondeur, etc. Cette flexibilité est particulièrement utile pour les tâches de génération thématiques.
L'équipe de recherche a également souligné qu'OminiControl atteint ces capacités en entraînant les images générées, ce qui est particulièrement important pour la génération thématique. Après une évaluation approfondie, OminiControl surpasse considérablement les modèles UNet et les modèles d'adaptation DiT existants dans les tâches de génération thématique et de génération conditionnelle alignée spatialement. Ce résultat de recherche apporte de nouvelles possibilités au domaine créatif.
Pour soutenir une recherche plus large, l’équipe a également publié un ensemble de données de formation appelé Subjects200K, qui contient plus de 200 000 images cohérentes avec l’identité et fournit un pipeline de synthèse de données efficace. Cet ensemble de données fournira aux chercheurs une ressource précieuse pour les aider à explorer davantage la tâche de génération de consensus sur le sujet.
Le lancement d'Omini améliore non seulement l'efficacité et l'effet de la génération d'images, mais offre également davantage de possibilités de création artistique.
Expérience en ligne : https://huggingface.co/spaces/Yuanshi/OminiControl
github :https://github.com/Yuanshi9815/OminiControl
Article : https://arxiv.org/html/2411.15098v2
L'émergence d'OminiControl marque une avancée significative dans la technologie de génération d'images. Son mécanisme efficace de réutilisation des paramètres et ses puissantes capacités de contrôle ont ouvert de nouvelles voies pour la création artistique et la recherche scientifique. À l'avenir, avec le développement continu de la technologie, je pense qu'OminiControl jouera un rôle important dans davantage de domaines et nous apportera une expérience de génération d'images plus étonnante.