L'équipe de recherche de l'Institut d'intelligence artificielle de Pékin a publié un nouveau modèle de génération d'images OmniGen, qui brise la limitation d'une seule fonction des outils de génération d'images traditionnels. Différent des modèles tels que Stable Diffusion, OmniGen intègre plusieurs fonctions telles que la génération de texte en image et l'édition d'images dans un cadre unifié, ce qui en fait un « outil polyvalent ». L'éditeur de Downcodes expliquera en détail la puissance d'OmniGen et ses perspectives d'application.
Récemment, l'équipe de recherche de l'Institut d'intelligence artificielle de Pékin a lancé un nouveau modèle de génération d'images appelé OmniGen.
Lecteur complet de génération et d'édition d'images
Par rapport aux outils de génération d'images précédents tels que Stable Diffusion, le plus grand point fort d'OmniGen est qu'il ne se concentre plus uniquement sur une seule tâche, mais qu'il dispose de plusieurs fonctionnalités :
Il peut gérer une variété de tâches de génération d'images dans un cadre unifié : de la génération de texte à la génération d'images et à l'édition d'images. On peut dire qu'il est polyvalent.
Cela signifie que les utilisateurs n'ont qu'à fournir des mots d'invite simples pour contrôler la génération d'images et l'édition fine, et n'ont plus besoin d'utiliser des plug-ins tels que ControlNet et IP-Adapter pour ajuster les détails de l'image !
Ici, AIbase est basé sur la fourniture d'un mot d'invite d'effet détaillé pour la photographie créative avec un appareil photo à l'ancienne. L'effet global généré est plein de détails et l'effet est le suivant :
Lors de plusieurs tests, OmniGen a réalisé des performances impressionnantes, à égalité avec les modèles les plus avancés du marché pour la génération de texte en image. Sur le benchmark GenEval, OmniGen n'a utilisé que 0,1 milliard d'images pour la formation, tandis que SD3 a utilisé plus d'un milliard d'images.
Les capacités d'édition d'images sont également excellentes, avec la possibilité de contrôler avec précision les images sources et les instructions d'édition. Par exemple, sur l'ensemble de test EMU-Edit, il surpasse les modèles bien connus tels que InstructPix2Pix et est même comparable au modèle EMU-Edit de pointe actuel.
Dans la tâche de génération axée sur le sujet, OmniGen a démontré des capacités de personnalisation extraordinaires et convient à de nombreux domaines tels que la création artistique et le design publicitaire.
Adresse d'essai : https://huggingface.co/spaces/Shitao/OmniGen
Article : https://arxiv.org/html/2409.11340v1
OmniGen apporte de nouvelles avancées dans le domaine de la génération d'images grâce à ses fonctions puissantes et ses performances efficaces. Sa méthode de fonctionnement simple et facile à utiliser abaisse également le seuil de génération d'images et fournit à davantage d'utilisateurs des outils de création pratiques. On s'attend à ce qu'OmniGen ait des applications plus larges à l'avenir et favorise le développement ultérieur de la technologie de génération d'images par intelligence artificielle.