Une collection d'études sur la génération de texte en image
Ce référentiel GitHub résume les articles et les ressources liés à la tâche de génération de texte en image (T2I).
Note
Ce document sert de homepage
à l'ensemble du dépôt GitHub. Les articles sont résumés selon différentes orientations de recherche, années de publication et conférences.
La section topics
résume les articles fortement liés à la génération T2I selon différentes propriétés, par exemple, les prérequis de la génération T2I, les modèles de diffusion avec d'autres techniques (par exemple, Transformateur de diffusion, LLM, Mamba, etc.) et les modèles de diffusion pour d'autres tâches.
Si vous avez des suggestions sur ce référentiel, n'hésitez pas à créer un nouveau numéro ou des pull request.
Les nouvelles récentes de ce dépôt GitHub sont répertoriées comme suit.
[Nov. 19e] Nous avons publié notre dernier article intitulé "StableV2V : Stablizing Shape Consistency in Video-to-Video Editing", avec le code correspondant, les poids des modèles et un test de référence DAVIS-Edit
open source. N'hésitez pas à les consulter à partir des liens !
Cliquez pour voir plus d'informations.
- [Avr. 26] Mettre à jour un nouveau sujet : Les modèles de diffusion rencontrent l'apprentissage fédéré. Voir la section
topics
pour plus de détails ! - [Mar. 28] La liste papier officielle de l'AAAI 2024 est publiée ! La version officielle des PDF et les références BibTeX sont mises à jour en conséquence.
- [Mar. 21] La section
topics
a été mise à jour. Cette section vise à proposer des listes d'articles résumées en fonction d'autres propriétés des modèles de diffusion , par exemple, les méthodes basées sur les transformateurs de diffusion, les modèles de diffusion pour la PNL, les modèles de diffusion intégrés aux LLM, etc. Les références correspondantes de ces articles sont également conclues en reference.bib
. - [Mar. 7e] Tous les articles et références disponibles CVPR, ICLR et AAAI 2024 sont mis à jour.
- [Mar. 1er] Les sites Web des produits et des boîtes à outils de génération de texte en image disponibles dans le commerce sont résumés.
Contenu
- Produits
- Listes de tâches
- Papiers
- Documents d'enquête
- Génération de texte en image
- Année 2024
- Année 2023
- Année 2022
- Année 2021
- Année 2020
- Génération conditionnelle de texte en image
- Année 2024
- Année 2023
- Année 2022
- Génération de texte en image personnalisée
- Édition d'images guidée par texte
- Année 2024
- Année 2023
- Année 2022
- Génération d'images de texte
- Ensembles de données
- Boîtes à outils
- Questions et réponses
- Références
- Histoire des étoiles
Listes de tâches
- Articles publiés sur les conférences
- Maintenance régulière des papiers arXiv pré-imprimés et des papiers manqués
<Retour en haut>
Produits
Nom | Année | Site web | Spécialités |
---|
Diffusion stable 3 | 2024 | lien | Diffusion Diffusion stable basée sur un transformateur |
Vidéo stable | 2024 | lien | Images haute résolution de haute qualité |
DALL-E 3 | 2023 | lien | Collaborez avec ChatGPT |
Idéogramme | 2023 | lien | Images de texte |
Aire de jeux | 2023 | lien | Images esthétiques |
HiDream.ai | 2023 | lien | - |
Tableau de bord | 2023 | lien | Génération de texte en bande dessinée |
ROUE | 2023 | lien | WHEE est un outil de génération d'IA en ligne, qui peut être appliqué pour la génération T2I, la génération I2I, la SR, l'inpainting, l'outpainting, la variation d'image, l'essai virtuel, etc. |
Véga IA | 2023 | lien | Vega AI est un outil de génération d'IA en ligne, qui peut être appliqué pour la génération T2I, la génération I2I, la SR, la génération T2V, la génération I2V, etc. |
IA Wujie | 2022 | lien | Le nom chinois est « 无界AI », offrant des ressources et des services en ligne AIGC. |
À mi-parcours | 2022 | lien | Puissant outil de génération de proximité |
<Retour en haut>
Papiers
Documents d'enquête
- Génération de texte en image
- Année 2024
- Enquêtes informatiques ACM
- Modèles de diffusion : une étude complète des méthodes et des applications [Papier]
- Année 2023
- TPAMI
- Modèles de diffusion en vision : une enquête [Papier] [Code]
- arXiv
- Modèles de diffusion texte-image dans l'IA générative : une enquête [Papier]
- État de l'art sur les modèles de diffusion pour l'informatique visuelle [Papier]
- Année 2022
- arXiv
- Modèles de diffusion efficaces pour la vision : une enquête [Papier]
- Génération conditionnelle de texte en image
- Année 2024
- arXiv
- Génération contrôlable avec des modèles de diffusion texte-image : une enquête [Papier]
- Édition d'images guidée par texte
- Année 2024
- arXiv
- Édition d'images basée sur un modèle de diffusion : une enquête [Papier] [Code]
<Retour en haut>
Génération de texte en image
- Année 2024
- CVPR
- DistriFusion : Inférence parallèle distribuée pour les modèles de diffusion haute résolution [Papier] [Code]
- InstanceDiffusion : contrôle au niveau de l'instance pour la génération d'images [Papier] [Code] [Projet]
- ECLIPSE : un système de conversion texte-image économe en ressources pour les générations d'images [Papier] [Code] [Projet] [Démo]
- Instruct-Imagen : Génération d'images avec instruction multimodale [Papier]
- Apprentissage de mots 3D continus pour la génération de texte en image [Papier] [Code]
- HanDiffuser : génération de texte en image avec des apparences de mains réalistes [Papier]
- Commentaires humains riches pour la génération de texte en image [Papier]
- MarkovGen : prédiction structurée pour une génération efficace de texte en image [Papier]
- Assistant de personnalisation pour la génération de texte en image [Papier]
- ADI : Apprentissage d'identifiants démêlés pour la génération de texte en image personnalisée par action [Papier] [Projet]
- UFOGen : vous transférez une fois la génération de texte en image à grande échelle via des GAN de diffusion [Papier]
- Directions latentes de diffusion interprétable à découverte automatique pour une génération responsable de texte en image [Papier]
- Visions sur mesure : amélioration de la génération de texte en image avec une réécriture d'invite personnalisée [Papier] [Code]
- CoDi : Distillation par diffusion conditionnelle pour une génération d'images plus fidèle et plus rapide [Papier] [Code] [Projet] [Démo]
- Génération d'images à échelle arbitraire et suréchantillonnage à l'aide d'un modèle de diffusion latente et d'un décodeur neuronal implicite [Papier]
- Vers une utilisation efficace des priorités centrées sur l'humain dans les modèles de diffusion pour la génération d'images humaines basées sur du texte [Papier]
- ElasticDiffusion : génération d'images de taille arbitraire sans formation [Papier] [Code] [Projet] [Démo]
- CosmicMan : un modèle de base texte-image pour les humains [Papier] [Code] [Projet]
- PanFusion : maîtriser la diffusion stable pour le texte et la génération d'images panoramiques à 360° [Papier] [Code] [Projet]
- Intelligent Grimm : narration visuelle ouverte via des modèles de diffusion latente [Papier] [Code] [Projet]
- Sur l'évolutivité de la génération de texte en image basée sur la diffusion [Papier]
- MuLAn : un ensemble de données annotées multicouches pour la génération de texte en image contrôlable [Papier] [Projet] [Ensemble de données]
- Apprendre les préférences humaines multidimensionnelles pour la génération de texte en image [Papier]
- Optimisation des invites dynamiques pour la génération de texte en image [Papier]
- Modèles de diffusion de formation vers une génération d'images diversifiées avec apprentissage par renforcement [Papier]
- Texte contradictoire vers génération d'images continue [Papier] [Projet] [Vidéo]
- EmoGen : Génération de contenu d'images émotionnelles avec des modèles de diffusion texte-image [Papier] [Code]
- ECVC
- Relier différents modèles de langage et modèles de vision générative pour la génération de texte en image [Papier] [Code] [Projet]
- Explorer l'ancrage au niveau de la phrase avec le modèle de diffusion texte-image [Papier] [Code]
- Bien faire les choses : améliorer la cohérence spatiale dans les modèles texte-image [Papier] [Code] [Projet]
- Naviguer dans le biais génératif texte-image dans les langues indiennes [Papier] [Projet]
- Sauvegarder les modèles de diffusion texte-image avec l'inversion de la rétroaction humaine [Papier]
- La fabrication de la réalité et de la fantaisie : génération de scènes avec interprétation rapide assistée par LLM [Papier] [Code] [Projet] [Ensemble de données]
- Effacement de concept fiable et efficace des modèles de diffusion texte-image [Papier] [Code]
- Explorer l'ancrage au niveau de la phrase avec le modèle de diffusion texte-image [Papier] [Code]
- StyleTokenizer : Définition du style d'image par une seule instance pour contrôler les modèles de diffusion [Paper] [Code]
- PEA-Diffusion : adaptateur efficace en termes de paramètres avec distillation des connaissances dans la génération de texte en image dans une langue autre que l'anglais [Papier] [Code]
- Les biais dans l'espace des phénomènes entravent la généralisation dans la génération de texte en image [Paper] [Code]
- Parrot : Cadre d'apprentissage par renforcement multi-récompenses Pareto-optimal pour la génération de texte en image [Papier]
- Relier différents modèles de langage et modèles de vision générative pour la génération de texte en image [Papier] [Code] [Projet]
- MobileDiffusion : génération instantanée de texte en image sur les appareils mobiles [Papier]
- PixArt-Σ : Formation faible à fort du transformateur de diffusion pour la génération de texte en image 4K [Papier] [Code] [Projet]
- CogView3 : génération de texte en image plus fine et plus rapide via la diffusion par relais [Papier] [Code]
- ICLR
- Modèles de diffusion de débruitage patchés pour la synthèse d'images haute résolution [Papier] [Code]
- Diffusion relais : unifier le processus de diffusion à travers les résolutions pour la synthèse d'images [Papier] [Code]
- SDXL : Amélioration des modèles de diffusion latente pour la synthèse d'images haute résolution [Papier] [Code]
- Composer et conquérir : synthèse d'images composables 3D basée sur la profondeur et basée sur la diffusion [Papier] [Code]
- PixArt-α : Formation rapide du transformateur de diffusion pour la synthèse photoréaliste de texte en image [Papier] [Code] [Projet] [Démo]
- SIGGRAPHE
- RGB↔X : Décomposition et synthèse d'images à l'aide de modèles de diffusion sensibles aux matériaux et à l'éclairage [Papier] [Projet]
- AAAI
- Augmentation des données sémantique pour la synthèse texte-image [Papier]
- Génération de texte en image pour les concepts abstraits [Papier]
- arXiv
- Ajustement fin et autonome des modèles de diffusion pour la génération de texte en image [Papier]
- RPG : Maîtriser la diffusion texte-image : récapitulation, planification et génération avec des LLM multimodaux [Papier] [Code]
- Playground v2.5 : Trois idées pour améliorer la qualité esthétique dans la génération de texte en image [Papier] [Code]
- ResAdapter : adaptateur de résolution cohérente de domaine pour les modèles de diffusion [Papier] [Code] [Projet]
- InstantID : génération Zero-shot préservant l'identité en quelques secondes [Papier] [Code] [Projet] [Démo]
- PIXART-δ : Génération d'images rapide et contrôlable avec des modèles de cohérence latente [Papier] [Code]
- ELLA : Équiper les modèles de diffusion avec LLM pour un alignement sémantique amélioré [Papier] [Code] [Projet]
- Text2Street : génération de texte en image contrôlable pour Street Views [Papier]
- LayerDiffuse : diffusion de couches d'images transparentes à l'aide de la transparence latente [Papier] [Code]
- SD3-Turbo : synthèse rapide d'images haute résolution avec distillation par diffusion contradictoire latente [Papier]
- StreamMultiDiffusion : génération interactive en temps réel avec contrôle sémantique basé sur la région [Papier] [Code]
- SVGDreamer : Génération SVG guidée par texte avec modèle de diffusion [Papier] [Code] [Projet]
- PromptCharm : génération de texte en image via des invites et un raffinement multimodaux [Papier]
- YOSO : Vous n'échantillonnez qu'une seule fois : apprivoiser la synthèse texte-image en une étape par des GAN de diffusion auto-coopératifs [Papier] [Code]
- SingDiffusion : Aborder les singularités aux extrémités des intervalles de temps dans les modèles de diffusion [Papier] [Code]
- CoMat : Aligner le modèle de diffusion texte-image avec la correspondance de concepts image-texte [Papier] [Code] [Projet]
- StoryDiffusion : auto-attention cohérente pour la génération d'images et de vidéos à longue portée [Papier] [Code] [Projet] [Démo]
- Adaptateur facial pour modèles de diffusion pré-entraînés avec identification à grain fin et contrôle des attributs [Papier] [Projet]
- LinFusion : 1 GPU, 1 minute, image 16K [Papier] [Code] [Projet] [Démo]
- OmniGen : génération d'images unifiées [Papier] [Code]
- CoMPaSS : Améliorer la compréhension spatiale dans les modèles de diffusion texte-image [Papier] [Code]
- Autres
- Cascade stable [Blog] [Code]
<Retour en haut>
- Année 2023
- CVPR
- GigaGAN : mise à l'échelle des GAN pour la synthèse texte-image [Papier] [Code reproduit] [Projet] [Vidéo]
- ERNIE-ViLG 2.0 : Amélioration du modèle de diffusion texte-image grâce à un mélange d'experts en débruitage améliorés par les connaissances [Papier]
- Diffusion décalée pour la génération de texte en image [Papier] [Code]
- GALIP : CLIPs contradictoires génératifs pour la synthèse texte-image [Papier] [Code]
- Diffusion spécialisée : réglage fin et efficace des échantillons de modèles de diffusion texte-image pour apprendre n'importe quel style invisible [Papier] [Code]
- Vers une évaluation humaine vérifiable et reproductible pour la génération de texte en image [Papier]
- RIATIG : Génération texte-image contradictoire fiable et imperceptible avec des invites naturelles [Papier] [Code]
- ICCV
- DiffFit : déverrouiller la transférabilité des modèles de grande diffusion via un réglage précis simple et efficace des paramètres [Papier] [Code] [Démo]
- NeuroIPS
- ImageReward : Apprendre et évaluer les préférences humaines pour la génération de texte en image [Papier] [Code]
- RAPHAEL : Génération de texte en image via un grand mélange de voies de diffusion [Papier] [Projet]
- Liaison linguistique dans les modèles de diffusion : amélioration de la correspondance des attributs grâce à l'alignement de la carte d'attention [Papier] [Code]
- DenseDiffusion : génération de texte en image dense avec modulation de l'attention [Papier] [Code]
- ICLR
- Guide de diffusion structurée sans formation pour la synthèse compositionnelle de texte en image [Papier] [Code]
- CIML
- StyleGAN-T : Libérer la puissance des GAN pour une synthèse texte-image rapide à grande échelle [Papier] [Code] [Projet] [Vidéo]
- Muse : Génération de texte en image via des transformateurs génératifs masqués [Papier] [Code reproduit] [Projet]
- UniDiffusers : un transformateur s'adapte à toutes les distributions en diffusion multimodale à grande échelle [Papier] [Code]
- ACMMM
- SUR-adapter : amélioration des modèles de diffusion pré-entraînés texte-image avec de grands modèles de langage [Papier] [Code]
- ControlStyle : génération d'images stylisées basées sur du texte à l'aide de priorités de diffusion [Papier]
- SIGGRAPHE
- Attend-and-Excite : guidage sémantique basé sur l'attention pour les modèles de diffusion texte-image [Papier] [Code] [Projet] [Démo]
- arXiv
- P+ : Conditionnement textuel étendu dans la génération de texte en image [Papier]
- SDXL-Turbo : Distillation par diffusion contradictoire [Papier] [Code]
- Wuerstchen : une architecture efficace pour les modèles de diffusion texte-image à grande échelle [Papier] [Code]
- StreamDiffusion : une solution au niveau du pipeline pour la génération interactive en temps réel [Papier] [Projet]
- ParaDiffusion : génération de paragraphe à image avec un modèle de diffusion enrichi en informations [Papier] [Code]
- Autres
- DALL-E 3 : Améliorer la génération d'images avec de meilleures légendes [Papier]
<Retour en haut>
- Année 2022
- CVPR
- Diffusion stable : synthèse d'images haute résolution avec des modèles de diffusion latente [Papier] [Code] [Projet]
- Modèle de diffusion quantifié vectoriel pour la synthèse texte-image [Papier] [Code]
- DF-GAN : une base de référence simple et efficace pour la synthèse texte-image [Papier] [Code]
- LAFITE : Vers une formation sans langage pour la génération de texte en image [Papier] [Code]
- Synthèse texte-image basée sur un transformateur de décodage conjoint guidé par objet [Papier]
- StyleT2I : vers une synthèse texte-image compositionnelle et haute fidélité [Papier] [Code]
- ECVC
- Make-A-Scene : génération de texte en image basée sur une scène avec des priorités humaines [Papier] [Code] [Démo]
- Génération contrôlée de texte en image par trace [Papier]
- Génération d'images masquées améliorée avec Token-Critic [Papier]
- VQGAN-CLIP : Génération et manipulation d'images de domaine ouvert à l'aide du langage naturel [Papier] [Code]
- TISE : Sac de métriques pour l'évaluation de la synthèse texte-image [Papier] [Code]
- StoryDALL-E : Adaptation de transformateurs texte en image pré-entraînés pour la suite de l'histoire [Papier] [Code] [Démo]
- NeuroIPS
- CogView2 : génération de texte en image plus rapide et meilleure via des transformateurs hiérarchiques [Papier] [Code]
- Imagen : Modèles photoréalistes de diffusion texte-image avec compréhension approfondie du langage [Papier] [Code reproduit] [Projet] [ Imagen 2 ]
- ACMMM
- Adma-GAN : GAN augmentés en mémoire basée sur les attributs pour la génération de texte en image [Papier] [Code]
- Génération de mise en page en arrière-plan et transfert de connaissances sur les objets pour la génération de texte en image [Papier]
- DSE-GAN : Réseau contradictoire génératif d'évolution sémantique dynamique pour la génération de texte en image [Papier]
- AtHom : deux attentions divergentes stimulées par la formation homomorphique en synthèse texte-image [Papier]
- arXiv
- DALLE-2 : Génération d'images conditionnelles de texte hiérarchique avec CLIP Latents [Papier]
- PITI : La pré-formation est tout ce dont vous avez besoin pour la traduction d'image à image [Papier] [Code]
<Retour en haut>
- Année 2021
- ICCV
- DAE-GAN : GAN dynamique prenant en compte les aspects pour la synthèse texte-image [Papier] [Code]
- NeuroIPS
- CogView : Maîtriser la génération de texte en image via des transformateurs [Papier] [Code] [Démo]
- UFC-BERT : Unifier les contrôles multimodaux pour la synthèse d'images conditionnelles [Papier]
- CIML
- DALLE-1 : Génération de texte en image Zero-Shot [Papier] [Code reproduit]
- ACMMM
- GAN inverse cohérent avec le cycle pour la synthèse texte-image [Papier]
- R-GAN : Explorer une méthode semblable à celle de l'humain pour une synthèse raisonnable de texte en image via des réseaux contradictoires génératifs [Papier]
<Retour en haut>
- Année 2020
- ACMMM
- Synthèse texte-image via une mise en page esthétique [Papier]
<Retour en haut>
Génération conditionnelle de texte en image
- Année 2024
- CVPR
- PLACE : Fusion adaptative mise en page et sémantique pour la synthèse d'images sémantiques [Papier]
- Synthèse d'images stylisées One-Shot prenant en compte la structure [Papier]
- Synthèse texte-image fondée avec recentrage de l'attention [Papier] [Code] [Projet] [Démo]
- Diffusion latente grossière à fine pour la synthèse d'images de personnes guidées par la pose [Papier] [Code]
- DetDiffusion : Synergiser les modèles génératifs et perceptifs pour une génération et une perception améliorées des données [Papier]
- CAN : Réseau neuronal sensible aux conditions pour la génération d'images contrôlées [Papier]
- SceneDiffusion : déplacez n'importe quoi avec la diffusion de scènes en couches [Papier]
- Zero-Painter : contrôle de mise en page sans formation pour la synthèse texte-image [Paper] [Code]
- MIGC : Contrôleur de génération multi-instances pour la synthèse texte-image [Papier] [Code] [Projet]
- FreeControl : contrôle spatial sans formation de tout modèle de diffusion texte-image avec n'importe quelle condition [Papier] [Code] [Projet]
- ECVC
- PreciseControl : amélioration des modèles de diffusion texte-image avec un contrôle d'attribut à grain fin [Papier] [Code] [Projet]
- AnyControl : créez votre œuvre avec un contrôle polyvalent sur la génération de texte en image [Paper] [Code]
- ICLR
- Faire progresser la synthèse d'images guidée par la pose avec des modèles de diffusion conditionnelle progressive [Papier] [Code]
- WACV
- Contrôle de mise en page sans formation avec guidage d'attention croisée [Papier] [Code] [Projet] [Démo]
- AAAI
- SSMG : Modèle de diffusion guidée par carte spatio-sémantique pour la génération de mise en page en image de forme libre [Papier]
- Synthèse compositionnelle texte-image avec contrôle de la carte d'attention des modèles de diffusion [Papier] [Code]
- arXiv
- DEADiff : un modèle de diffusion de stylisation efficace avec des représentations démêlées [Papier]
- InstantStyle : déjeuner gratuit pour la préservation du style dans la génération de texte en image [Papier] [Code] [Projet]
- ControlNet++ : Améliorer les contrôles conditionnels avec un retour de cohérence efficace [Papier] [Projet]
- Hunyuan-DiT : un puissant transformateur de diffusion multi-résolution avec une compréhension fine du chinois [Papier] [Code] [Projet]
- DialogGen : système de dialogue interactif multimodal pour la génération de texte en image multi-tours [Papier] [Code] [Projet]
- ControlNeXt : contrôle puissant et efficace pour la génération d'images et de vidéos [Papier] [Code] [Projet]
- UniPortrait : un cadre unifié pour la personnalisation d'images individuelles et multi-humaines préservant l'identité [Papier] [Code] [Projet] [Démo]
- OmniControl : contrôle minimal et universel pour le transformateur de diffusion [Papier] [Code] [Démo]
- UnZipLoRA : Séparer le contenu et le style d'une seule image [Papier] [Projet]
- CtrLoRA : un cadre extensible et efficace pour la génération d'images contrôlables [Papier] [Code]
- Génération de texte en image sensible à la région via une liaison matérielle et un raffinement logiciel [Papier] [Code]
<Retour en haut>
- Année 2023
- CVPR
- GLIGEN : Génération de texte en image basée sur un ensemble ouvert [Papier] [Code] [Projet] [Démo] [Vidéo]
- Génération d'images autorégressives à l'aide de la quantification résiduelle [Papier] [Code]
- SpaText : représentation spatio-textuelle pour la génération d'images contrôlables [Papier] [Projet] [Vidéo]
- Génération de texte en image avec GAN sémantique-spatial [Papier]
- ReCo : génération de texte en image contrôlée par région [Papier] [Code]
- LayoutDiffusion : modèle de diffusion contrôlable pour la génération de mise en page en image [Papier] [Code]
- ICCV
- ControlNet : Ajout d'un contrôle conditionnel aux modèles de diffusion texte-image [Papier] [Code]
- SceneGenie : Modèles de diffusion guidée par graphes de scène pour la synthèse d'images [Papier] [Code]
- ZestGuide : Conditionnement de la disposition spatiale Zero-Shot pour les modèles de diffusion texte-image [Papier]
- CIML
- Compositeur : synthèse d'images créatives et contrôlables avec des conditions composables [Papier] [Code] [Projet]
- MultiDiffusion : Fusionner les chemins de diffusion pour la génération d'images contrôlées [Papier] [Code] [Vidéo] [Projet] [Démo]
- SIGGRAPHE
- Modèles de diffusion texte-image guidés par esquisse [Papier] [Code reproduit] [Projet]
- NeuroIPS
- Uni-ControlNet : contrôle tout-en-un des modèles de diffusion texte-image [Papier] [Code] [Projet]
- Diffusion rapide : apprentissage en contexte débloqué pour les modèles de diffusion [Papier] [Code] [Projet]
- WACV
- Plus de contrôle gratuitement ! Synthèse d'images avec guidage de diffusion sémantique [Papier]
- ACMMM
- LayoutLLM-T2I : obtenir des conseils de mise en page de LLM pour la génération de texte en image [Papier]
- arXiv
- T2I-Adapter : apprentissage d'adaptateurs pour découvrir une capacité plus contrôlable pour les modèles de diffusion texte-image [Papier] [Code] [Démo]
- BLIP-Diffusion : représentation de sujets pré-entraînés pour la génération et l'édition de texte en image contrôlables [Papier] [Code]
- Guide de diffusion par contraintes tardives pour la synthèse d'images contrôlables [Papier] [Code]
- Année 2022
- ICLR
- SDEdit : synthèse et édition guidées d'images avec des équations différentielles stochastiques [Papier] [Code] [Projet]
<Retour en haut>
Génération de texte en image personnalisée
- Année 2024
- CVPR
- Initialisation croisée pour la génération personnalisée de texte en image [Papier]
- Quand StyleGAN rencontre la diffusion stable : un adaptateur W+ pour la génération d'images personnalisées [Papier] [Code] [Projet]
- Génération d'images alignées sur le style via une attention partagée [Papier] [Code] [Projet]
- InstantBooth : génération personnalisée de texte en image sans réglage fin au moment du test [Papier] [Projet]
- Synthèse sujet-image haute fidélité centrée sur la personne [Papier]
- RealCustom : rétrécissement de mots en texte réel pour la personnalisation texte-image en domaine ouvert en temps réel [Papier] [Projet]
- DisenDiff : étalonnage de l'attention pour la personnalisation texte-image démêlée [Papier] [Code]
- FreeCustom : génération d'images personnalisées sans réglage pour une composition multi-concepts [Papier] [Code] [Projet]
- Résidus personnalisés pour la génération de texte en image basée sur le concept [Papier]
- Améliorer la synthèse d'images axée sur le sujet avec des conseils indépendants du sujet [Papier]
- JeDi : Modèles de diffusion d'images conjointes pour la génération de texte en image personnalisée sans réglage fin [Papier]
- Contrer la génération personnalisée de texte en image avec des filigranes d'influence [Papier]
- ECVC
- Soyez vous-même : attention limitée pour la génération de texte en image multi-sujets [Papier] [Projet]
- Puissant et flexible : génération personnalisée de texte en image via l'apprentissage par renforcement [Papier] [Code]
- TIGC : personnalisation d'image sans réglage avec guidage d'image et de texte [Papier] [Code] [Projet]
- MasterWeaver : Apprivoiser la capacité de modification et l'identité du visage pour une génération personnalisée de texte en image [Papier] [Code] [Projet]
- AAAI
- Intégrations textuelles découplées pour la génération d'images personnalisées [Papier]
- arXiv
- FlashFace : personnalisation de l'image humaine avec préservation de l'identité haute fidélité [Papier] [Code] [Projet]
- MoMA : Adaptateur LLM multimodal pour une génération rapide d'images personnalisées [Papier]
- IDAdapter : apprentissage de fonctionnalités mixtes pour une personnalisation sans réglage des modèles texte-image [Papier]
- CoRe : apprentissage par intégration de texte régularisé par le contexte pour la personnalisation texte-image [Papier]
- Imaginez-vous : génération d'images personnalisées sans réglage [Papier] [Projet]
- Année 2023
- CVPR
- Diffusion personnalisée : personnalisation multi-concept de la diffusion texte-image [Papier] [Code] [Projet]
- DreamBooth : Affiner les modèles de diffusion texte-image pour la génération axée sur le sujet [Papier] [Code] [Projet]
- ICCV
- ELITE : Encodage de concepts visuels dans des intégrations textuelles pour une génération de texte en image personnalisée [Papier] [Code]
- ICLR
- Inversion textuelle : une image vaut un mot : personnalisation de la génération texte-image à l'aide de l'inversion textuelle [Papier] [Code] [Projet]
- SIGGRAPHE
- Break-A-Scene : extraire plusieurs concepts à partir d'une seule image [Papier] [Code]
- Réglage de domaine basé sur un encodeur pour une personnalisation rapide des modèles texte-image [Papier] [Projet]
- LayerDiffusion : Édition d'images contrôlées en couches avec des modèles de diffusion [Papier]
- arXiv
- DreamTuner : une seule image suffit pour la génération axée sur le sujet [Papier] [Projet]
- PhotoMaker : personnalisation de photos humaines réalistes via l'intégration d'ID empilés [Papier] [Code]
- Adaptateur IP : adaptateur d'invite d'image compatible avec le texte pour les modèles de diffusion texte-image [Papier] [Code] [Projet]
- FastComposer : génération d'images multi-sujets sans réglage avec attention localisée [Papier] [Code]
<Retour en haut>
Édition d'images guidée par texte
- Année 2024
- CVPR
- InfEdit : édition d'images sans inversion avec le langage naturel [Papier] [Code] [Projet]
- Vers une compréhension croisée et de l'attention personnelle dans une diffusion stable pour l'édition d'images guidée par texte [Papier]
- Inférence contrefactuelle doublement abductive pour l'édition d'images basée sur du texte [Papier] [Code]
- Concentrez-vous sur votre instruction : édition d'images à granularité fine et multi-instructions par modulation de l'attention [Papier] [Code]
- Score de débruitage contrasté pour l'édition d'images par diffusion latente guidée par texte [Papier]
- DragDiffusion : Exploiter les modèles de diffusion pour l'édition d'images interactive basée sur des points [Papier] [Code]
- DiffEditor : Améliorer la précision et la flexibilité de l'édition d'images basée sur la diffusion [Papier]
- FreeDrag : fonctionnalité de déplacement pour une édition d'image fiable basée sur des points [Papier] [Code]
- Édition d'images basée sur le texte via des régions pouvant être apprises [Papier] [Code] [Projet] [Vidéo]
- LEDITS++ : Édition d'images illimitée à l'aide de modèles texte-image [Papier] [Code] [Projet] [Démo]
- SmartEdit : Exploration de l'édition d'images complexes basée sur des instructions avec de grands modèles de langage [Papier] [Code] [Projet]
- Edit One for All : Édition interactive d'images par lots [Papier] [Code] [Projet]
- DiffMorpher : libérer les capacités des modèles de diffusion pour le morphing d'images [Papier] [Code] [Projet] [Démo]
- TiNO-Edit : optimisation du pas de temps et du bruit pour une édition d'images robuste basée sur la diffusion [Papier] [Code]
- Personne en place : génération de cartes de guidage de squelette associatives pour l'édition d'images d'interaction homme-objet [Papier] [Projet] [Code]
- Édition d'images de référence : édition d'images au niveau de l'objet via des expressions de référence [Papier]
- Augmentation rapide pour la manipulation d'images auto-supervisée guidée par texte [Papier]
- Le diable est dans les détails : StyleFeatureEditor pour une inversion StyleGAN riche en détails et une édition d'images de haute qualité [Paper] [Code]
- ECVC
- RegionDrag : édition rapide d'images basées sur une région avec des modèles de diffusion [Papier] [Code] [Projet] [Démo]
- TurboEdit : édition instantanée d'images basées sur du texte [Papier] [Projet]
- InstructGIE : Vers une édition d'images généralisable [Papier]
- StableDrag : glisser stable pour l'édition d'images basée sur des points [Papier]
- Inversion Eta : conception d'une fonction Eta optimale pour l'édition d'images réelles basée sur la diffusion [Papier] [Code] [Projet]
- SwapAnything : Activation de l'échange d'objets arbitraires dans l'édition d'images personnalisée [Papier] [Code] [Projet]
- Guide-and-Rescale : mécanisme d'auto-guidage pour une édition efficace d'images réelles sans réglage [Papier]
- FreeDiff : troncature de fréquence progressive pour l'édition d'images avec des modèles de diffusion [Papier] [Code]
- Transformateur de diffusion paresseux pour l'édition d'images interactives [Papier] [Projet]
- ByteEdit : Boostez, respectez et accélérez l'édition générative d'images [Papier] [Projet]
- ICLR
- Guider l'édition d'images basée sur des instructions via des modèles multimodaux de grand langage [Papier] [Code] [Projet]
- La bénédiction du hasard : SDE bat l'ODE dans l'édition générale d'images basée sur la diffusion [Papier] [Code] [Projet]
- Guidage de mouvement : édition d'images basée sur la diffusion avec des estimateurs de mouvement différentiables [Papier] [Code] [Projet]
- Inversion et réassemblage sensibles aux objets pour l'édition d'images [Papier] [Code] [Projet]
- Guide de la carte de bruit : inversion avec contexte spatial pour l'édition d'images réelles [Papier]
- AAAI
- Contrôle amélioré par inversion sans réglage pour une édition d'image cohérente [Papier]
- BARET : Édition d'images réelles basée sur l'attention équilibrée et pilotée par l'inversion du texte cible [Papier]
- Accélération de l'édition texte-image via l'inférence de diffusion clairsemée activée par le cache [Papier]
- Édition d'images haute fidélité basée sur la diffusion [Papier]
- AdapEdit : algorithme d'édition adaptative guidée spatio-temporelle pour l'édition d'images basée sur le texte et sensible à la continuité [Papier]
- TexFit : Édition d'images de mode basée sur le texte avec des modèles de diffusion [Papier]
- arXiv
- Un élément mérite d'être invité : édition d'images polyvalente avec contrôle démêlé [Papier] [Code]
- Adaptateur unidimensionnel pour les gouverner tous : concepts, modèles de diffusion et applications d'effacement [Papier] [Code] [Projet]
- EditWorld : simulation de la dynamique du monde pour l'édition d'images suivant les instructions [Papier] [Code] [Projet]
- ReasonPix2Pix : ensemble de données de raisonnement d'instructions pour l'édition avancée d'images [Papier]
- FlowEdit : édition de texte sans inversion à l'aide de modèles de flux pré-entraînés [Papier] [Code] [Projet] [Démo]
- Année 2023
- CVPR
- Découvrir la capacité de désenchevêtrement dans les modèles de diffusion texte-image [Papier] [Code]
- SINE : Édition d'images SINGle avec modèles de diffusion texte-image [Papier] [Code]
- Imagic : Édition d'images réelles basée sur du texte avec des modèles de diffusion [Papier]
- InstructPix2Pix : Apprendre à suivre les instructions d'édition d'images [Papier] [Code] [Ensemble de données] [Projet] [Démo]
- Inversion de texte nul pour l'édition d'images réelles à l'aide de modèles de diffusion guidée [Papier] [Code]
- ICCV
- MasaCtrl : contrôle mutuel de l'attention personnelle sans réglage pour une synthèse et une édition d'images cohérentes [Papier] [Code] [Projet] [Démo]
- Localisation des variations de forme au niveau de l'objet avec des modèles de diffusion texte-image [Papier] [Code] [Projet] [Démo]
- ICLR
- SDEdit : synthèse et édition guidées d'images avec des équations différentielles stochastiques [Papier] [Code] [Projet]
- Année 2022
- CVPR
- DiffusionCLIP : Modèles de diffusion guidés par texte pour une manipulation robuste d'images [Papier] [Code]
<Retour en haut>
Génération d'images de texte
- Année 2024
- arXiv
- AnyText : génération et édition de textes visuels multilingues [Papier] [Code] [Projet]
- CVPR
- SceneTextGen : synthèse d'images de texte de scène indépendante de la mise en page avec diffusion intégrée au niveau des caractères et cohérence contextuelle [Papier]
<Retour en haut>
Ensembles de données
- Microsoft COCO : Objets communs en contexte [Papier] [Ensemble de données]
- Légendes conceptuelles : un ensemble de données de texte alternatif d'image nettoyé et hypernymé pour le sous-titrage automatique d'image [Papier] [Ensemble de données]
- LAION-5B : Un ensemble de données ouvert à grande échelle pour la formation de modèles image-texte de nouvelle génération [Papier] [Ensemble de données]
- PartiPrompts : mise à l'échelle de modèles autorégressifs pour la génération de texte en image riche en contenu [Papier] [Ensemble de données] [Projet]
<Retour en haut>
Boîtes à outils
Nom | Site web | Description |
---|
Interface utilisateur Web à diffusion stable | lien | Construit sur la base de Gradio, déployé localement pour exécuter des points de contrôle de diffusion stable, des poids LoRA, des poids ControlNet, etc. |
Forge WebUI à diffusion stable | lien | Construit sur la base de Gradio, déployé localement pour exécuter des points de contrôle de diffusion stable, des poids LoRA, des poids ControlNet, etc. |
Fooocus | lien | Construit sur la base de Gradio, hors ligne, open source et gratuit. Le réglage manuel n'est pas nécessaire et les utilisateurs doivent uniquement se concentrer sur les invites et les images. |
Interface utilisateur confortable | lien | Déployé localement pour permettre des flux de travail personnalisés avec Stable Diffusion |
Civitaï | lien | Sites Web pour les points de contrôle communautaires de diffusion stable et LoRA |
<Retour en haut>
Questions et réponses
- Q : La séquence de conférence de cette liste d’articles ?
- Cette liste papier est organisée selon la séquence suivante :
- CVPR
- ICCV
- ECVC
- WACV
- NeuroIPS
- ICLR
- CIML
- ACMMM
- SIGGRAPHE
- AAAI
- arXiv
- Autres
- Q : À quoi fait référence
Others
?- Certaines des études suivantes (par exemple,
Stable Casacade
) ne publient pas leur rapport technique sur arXiv. Au lieu de cela, ils ont tendance à écrire un blog sur leurs sites Web officiels. La catégorie Others
fait référence à ce type d’études.
<Retour en haut>
Références
Le fichier reference.bib
résume les références bibtex d'articles d'inpainting d'images à jour, d'ensembles de données largement utilisés et de boîtes à outils. Sur la base des références originales, j'ai apporté les modifications suivantes pour que leurs résultats soient jolis dans les manuscrits LaTeX
:
- Les références sont normalement construites sous la forme de
author-etal-year-nickname
. En particulier, les références des ensembles de données et des boîtes à outils sont directement construites sous forme de nickname
, par exemple imagenet
. - Dans chaque référence, tous les noms de conférences/journaux sont convertis en abréviations, par exemple,
Computer Vision and Pattern Recognition -> CVPR
. - L'
url
, doi
, publisher
, organization
, editor
, series
dans toutes les références sont supprimés. - Les
pages
de toutes les références sont ajoutées si elles sont manquantes. - Tous les noms de papier sont dans la casse du titre. En outre, j'ai ajouté un
{}
supplémentaire pour m'assurer que la casse du titre fonctionnerait également bien dans certains modèles particuliers.
Si vous avez d'autres exigences en matière de formats de référence, vous pouvez vous référer aux références originales des articles en recherchant leurs noms dans DBLP ou Google Scholar.
Note
Notez que les références dans la homepage
et la section topic
peuvent être répétées dans reference.bib
. Personnellement, je recommande d'utiliser "Ctrl+F" / "Command+F"
pour rechercher la référence BibTeX
souhaitée.
<Retour en haut>
Histoire des étoiles
<Retour en haut>