L'éditeur de Downcodes a appris que des chercheurs de Nvidia et de l'Université de Tel Aviv ont développé conjointement un outil de génération d'images IA appelé ComfyGen. Il peut générer automatiquement des flux de travail complexes basés sur de simples invites textuelles, simplifiant considérablement la difficulté de génération d'images de haute qualité. ComfyGen dépasse les limites de la méthode traditionnelle de conversion texte-image à modèle unique, en sélectionnant intelligemment les modèles, en ajustant avec précision les mots d'invite et en les combinant avec d'autres outils, ComfyGen obtient de meilleurs effets de génération d'images, apportant des changements révolutionnaires dans le domaine de l'image IA. génération. Son principal avantage est qu'il imite le style de travail d'ingénieurs expérimentés et peut ajuster les stratégies de manière flexible en fonction de différents besoins, ce qui abaissera considérablement le seuil de génération d'images et améliorera l'efficacité des utilisateurs professionnels.
Récemment, des chercheurs de Nvidia et de l'Université de Tel Aviv ont lancé un outil d'IA innovant appelé ComfyGen, apportant de nouvelles avancées dans le domaine de la génération d'images. ComfyGen peut générer automatiquement des flux de travail d'images complexes basés sur de simples invites textuelles, simplifiant considérablement le processus de génération d'images de haute qualité.
La principale force de ComfyGen réside dans son approche de flux de travail en plusieurs étapes. Contrairement aux méthodes traditionnelles de conversion texte-image à modèle unique, ComfyGen sélectionne intelligemment le modèle approprié, formule des invites précises et le combine avec d'autres outils (tels que des loupes d'image) pour obtenir les meilleurs résultats. Cette approche imite la façon dont travaillent les ingénieurs d'invite expérimentés, avec la possibilité d'ajuster de manière flexible la stratégie de génération en fonction de différents contenus de texte et des styles d'image souhaités.
L'outil utilise des modèles de langage avancés (tels que Claude3.5Sonnet) pour comprendre les invites textuelles des utilisateurs et générer automatiquement les flux de travail correspondants. Les chercheurs ont utilisé deux méthodes pour obtenir cette fonctionnalité :
Apprentissage contextuel : exploitez les modèles de langage existants pour aider le modèle à choisir le flux de travail le plus approprié pour les nouvelles invites en fournissant un tableau de flux de travail de différentes catégories d'invites et leurs scores moyens.
Affinement : les modèles de langage (tels que Llama-3.1-8B et -70B) sont spécifiquement formés pour prédire les flux de travail appropriés en fonction d'une invite et d'un score cible.
En comparaison avec les modèles uniques traditionnels (tels que Stable Diffusion XL) et les flux de travail fixes, ComfyGen a obtenu de bons résultats dans la notation automatisée et les études d'utilisateurs. La recherche montre que le flux de travail généré par ComfyGen peut bien correspondre à la catégorie d'invites, par exemple, les modèles d'agrandissement du visage sont plus susceptibles d'être utilisés lors du traitement des invites humaines, tandis que les modèles anatomiquement corrects sont davantage utilisés lors du traitement des invites d'animation.
Un autre avantage de ComfyGen est son adaptabilité. Il s'appuie sur les flux de travail existants et les modèles de notation créés par la communauté et peut s'adapter rapidement aux nouveaux développements technologiques. Cependant, cela entraîne également certaines limites, c'est-à-dire que le système actuel s'appuie principalement sur des données de formation connues pour la sélection, ce qui peut limiter la diversité et l'originalité du flux de travail généré.
À l’avenir, l’équipe de recherche prévoit de développer davantage ComfyGen pour permettre la génération de flux de travail entièrement nouveaux et étendre son application aux tâches d’image à image. Ils ont également proposé l'idée de combiner cette approche avec une approche basée sur des agents pour optimiser de manière itérative le flux de travail via le dialogue avec l'utilisateur, ce qui pourrait devenir une nouvelle direction pour les recherches futures.
L'émergence de ComfyGen apporte de nouvelles possibilités dans le domaine de la génération d'images IA :
Réduit la barrière à l'entrée : en automatisant les flux de travail complexes, ComfyGen peut aider les débutants à générer plus facilement des images de haute qualité.
Améliorer l'efficacité : pour les utilisateurs professionnels, ComfyGen peut réduire considérablement le temps d'ajustement manuel du flux de travail et améliorer l'efficacité du travail.
Sortie personnalisée : en sélectionnant intelligemment les modèles et les paramètres, ComfyGen est capable de générer des images plus personnalisées en fonction de différents besoins.
Promouvoir l'innovation technologique : l'approche de ComfyGen peut inspirer davantage d'innovation dans le domaine de la génération d'images IA et promouvoir le développement d'outils plus intelligents et plus flexibles.
Application inter-domaines : Le concept généré par ce workflow intelligent peut être appliqué à d'autres domaines, tels que le traitement audio, le montage vidéo, etc.
Bien que le code et les démonstrations de ComfyGen n'aient pas encore été rendus publics, son potentiel a attiré une large attention dans l'industrie. À mesure que cette technologie se développe et s’améliore, nous pouvons nous attendre à voir émerger davantage d’outils de création intelligents basés sur l’IA, apportant de nouveaux changements et opportunités à l’industrie créative.
Dans l’ensemble, l’émergence de ComfyGen marque un grand pas en avant dans la technologie de génération d’images IA. Son automatisation, son efficacité et sa personnalisation affecteront profondément la manière dont les images seront créées à l’avenir. Nous attendons avec impatience la sortie officielle de ComfyGen et sommes témoins des changements qu'il apporte à l'industrie créative.