Une équipe de recherche de l'Université nationale de Singapour a développé un nouveau cadre de génération d'images appelé OminiControl, qui améliore considérablement la flexibilité et l'efficacité de la génération d'images grâce à un ingénieux mécanisme de réutilisation des paramètres. OminiControl utilise le modèle de transformateur de diffusion (DiT) pré-entraîné, combiné aux conditions d'image, pour obtenir de puissantes capacités d'intégration de thème et d'alignement spatial. Même avec seulement quelques paramètres supplémentaires, il peut obtenir des résultats époustouflants. Il est capable de gérer une variété de tâches de conditionnement d'images, telles que la génération basée sur le sujet et l'alignement spatial à l'aide d'informations telles que les contours, les cartes de profondeur, etc., ce qui présente de grands avantages dans les tâches de génération d'images basées sur le sujet.
À l’ère numérique d’aujourd’hui, la technologie de génération d’images progresse à un rythme étonnant. Récemment, une équipe de recherche de l'Université nationale de Singapour a proposé un nouveau cadre, OminiControl, visant à améliorer la flexibilité et l'efficacité de la génération d'images. Ce cadre apporte des capacités de contrôle sans précédent en combinant les conditions d'image et en utilisant pleinement le modèle de transformateur de diffusion (DiT) déjà formé.
En termes simples, tant que vous fournissez une image matérielle, vous pouvez utiliser OminiControl pour intégrer le thème de l'image matérielle dans l'image générée. Par exemple, l'éditeur a téléchargé l'image matérielle à gauche et a saisi le mot d'invite "Le chip man est placé à côté de la table dans un cabinet médical, avec un stéthoscope placé sur la table". L'effet généré est relativement général, comme suit. :
Le cœur d'OminiControl réside dans son « mécanisme de réutilisation des paramètres ». Ce mécanisme permet au modèle DiT de gérer efficacement les conditions d'image avec moins de paramètres supplémentaires. Cela signifie que par rapport aux méthodes existantes, OminiControl n'a besoin que de 0,1 à 0,1 % de paramètres en plus pour réaliser des fonctions puissantes. De plus, il est capable de gérer uniformément plusieurs tâches de conditionnement d'images, telles que la génération basée sur le sujet et l'application de conditions d'alignement spatial, telles que les contours, les cartes de profondeur, etc. Cette flexibilité est particulièrement utile pour les tâches de génération thématiques.
L'équipe de recherche a également souligné qu'OminiControl atteint ces capacités en entraînant les images générées, ce qui est particulièrement important pour la génération thématique. Après une évaluation approfondie, OminiControl surpasse considérablement les modèles UNet et les modèles d'adaptation DiT existants dans les tâches de génération thématique et de génération conditionnelle alignée spatialement. Ce résultat de recherche apporte de nouvelles possibilités au domaine créatif.
Pour soutenir une recherche plus large, l’équipe a également publié un ensemble de données de formation appelé Subjects200K, qui contient plus de 200 000 images cohérentes avec l’identité et fournit un pipeline de synthèse de données efficace. Cet ensemble de données fournira aux chercheurs une ressource précieuse pour les aider à explorer davantage la tâche de génération de consensus sur le sujet.
Le lancement d'Omini améliore non seulement l'efficacité et l'effet de la génération d'images, mais offre également davantage de possibilités de création artistique. À mesure que la technologie continue de progresser, la génération d’images à l’avenir sera plus intelligente et personnalisée.
Expérience en ligne : https://huggingface.co/spaces/Yuanshi/OminiControl
github :https://github.com/Yuanshi9815/OminiControl
Article : https://arxiv.org/html/2411.15098v2
Souligner:
OminiControl utilise un mécanisme de réutilisation des paramètres pour rendre le contrôle de génération d'images plus puissant et efficace.
Le framework peut gérer plusieurs tâches de condition d'image en même temps, telles que les bords, les cartes de profondeur, etc., pour s'adapter aux différents besoins créatifs.
L’équipe a publié Subjects200K, un ensemble de données de plus de 200 000 images, pour faciliter la poursuite des recherches et de l’exploration.
L'émergence d'OminiControl marque une nouvelle étape dans la technologie de génération d'images. Son mécanisme efficace de réutilisation des paramètres et ses puissantes capacités multitâches fournissent aux artistes et aux chercheurs des outils puissants et annoncent également le potentiel illimité de la future technologie de génération d’images. N'hésitez pas à visiter le lien fourni pour en savoir plus et découvrir OminiControl.