Eine Sammlung von Studien zur Text-zu-Bild-Generierung
Dieses GitHub-Repository fasst Papiere und Ressourcen im Zusammenhang mit der Text-to-Image (T2I)-Generierungsaufgabe zusammen.
Notiz
Dieses Dokument dient als homepage
des gesamten GitHub-Repos. Die Beiträge werden nach verschiedenen Forschungsrichtungen, Erscheinungsjahren und Konferenzen zusammengefasst.
Im Abschnitt topics
“ werden Artikel zusammengefasst, die in hohem Maße mit der T2I-Erzeugung in Bezug auf verschiedene Eigenschaften zusammenhängen, z. B. Voraussetzungen der T2I-Erzeugung, Diffusionsmodelle mit anderen Techniken (z. B. Diffusion Transformer, LLMs, Mamba usw.) und Diffusionsmodelle für andere Aufgaben.
Wenn Sie Vorschläge zu diesem Repository haben, können Sie gerne eine neue Ausgabe starten oder Anfragen stellen.
Die neuesten Nachrichten zu diesem GitHub-Repo sind wie folgt aufgeführt.
[Nov. 19.] Wir haben unser neuestes Papier mit dem Titel „StableV2V: Stablizing Shape Consistency in Video-to-Video Editing“ mit dem entsprechenden Code, Modellgewichten und einem Open-Source-Testbenchmark DAVIS-Edit
veröffentlicht. Schauen Sie sich diese gerne über die Links an!
Klicken Sie hier, um weitere Informationen anzuzeigen.
- [Apr. 26.] Aktualisieren Sie ein neues Thema: Diffusionsmodelle treffen auf föderiertes Lernen. Weitere Informationen finden Sie im
topics
! - [Beschädigen. 28.] Die offizielle Papierliste der AAAI 2024 wird veröffentlicht! Die offiziellen Versionen von PDFs und BibTeX-Referenzen werden entsprechend aktualisiert.
- [Beschädigen. 21.] Der
topics
wurde aktualisiert. In diesem Abschnitt sollen Papierlisten angeboten werden, die nach anderen Eigenschaften von Diffusionsmodellen zusammengefasst sind , z. B. Diffusionstransformator-basierte Methoden, Diffusionsmodelle für NLP, in LLMs integrierte Diffusionsmodelle usw. Die entsprechenden Referenzen dieser Papiere werden ebenfalls als reference.bib
abgeschlossen reference.bib
. - [Beschädigen. 7.] Alle verfügbaren CVPR-, ICLR- und AAAI 2024-Papiere und Referenzen werden aktualisiert.
- [Beschädigen. 1.] Websites der handelsüblichen Produkte und Toolkits zur Text-zu-Bild-Generierung werden zusammengefasst.
Inhalt
- Produkte
- To-Do-Listen
- Papiere
- Umfragepapiere
- Text-zu-Bild-Generierung
- Jahr 2024
- Jahr 2023
- Jahr 2022
- Jahr 2021
- Jahr 2020
- Bedingte Text-zu-Bild-Generierung
- Jahr 2024
- Jahr 2023
- Jahr 2022
- Personalisierte Text-zu-Bild-Generierung
- Textgeführte Bildbearbeitung
- Jahr 2024
- Jahr 2023
- Jahr 2022
- Generierung von Textbildern
- Datensätze
- Toolkits
- Fragen und Antworten
- Referenzen
- Sternengeschichte
To-Do-Listen
- Veröffentlichte Beiträge zu Konferenzen
- Regelmäßige Wartung von Preprint-arXiv-Papieren und verpassten Papieren
<Zurück nach oben>
Produkte
Name | Jahr | Webseite | Spezialitäten |
---|
Stabile Diffusion 3 | 2024 | Link | Diffusionstransformator-basierte stabile Diffusion |
Stabiles Video | 2024 | Link | Hochwertige Bilder mit hoher Auflösung |
DALL-E 3 | 2023 | Link | Arbeiten Sie mit ChatGPT zusammen |
Ideogramm | 2023 | Link | Textbilder |
Spielplatz | 2023 | Link | Athetische Bilder |
HiDream.ai | 2023 | Link | - |
Dashtoon | 2023 | Link | Text-to-Comic-Generierung |
WHEE | 2023 | Link | WHEE ist ein Online-KI-Generierungstool, das für die T2I-Generierung, I2I-Generierung, SR, Inpainting, Outpainting, Bildvariation, virtuelle Anprobe usw. eingesetzt werden kann. |
Vega-KI | 2023 | Link | Vega AI ist ein Online-Tool zur KI-Generierung, das für die T2I-Generierung, I2I-Generierung, SR, T2V-Generierung, I2V-Generierung usw. angewendet werden kann. |
Wujie KI | 2022 | Link | Der chinesische Name ist „无界AI“ und bietet AIGC-Ressourcen und Online-Dienste |
Mitten auf der Reise | 2022 | Link | Leistungsstarkes Close-Source-Generierungstool |
<Zurück nach oben>
Papiere
Umfragepapiere
- Text-zu-Bild-Generierung
- Jahr 2024
- ACM-Computing-Umfragen
- Diffusionsmodelle: Ein umfassender Überblick über Methoden und Anwendungen [Aufsatz]
- Jahr 2023
- TPAMI
- Diffusionsmodelle im Sehvermögen: Eine Umfrage [Aufsatz] [Code]
- arXiv
- Text-zu-Bild-Diffusionsmodelle in der generativen KI: Eine Umfrage [Aufsatz]
- Stand der Technik zu Diffusionsmodellen für Visual Computing [Aufsatz]
- Jahr 2022
- arXiv
- Effiziente Diffusionsmodelle für das Sehvermögen: Eine Umfrage [Aufsatz]
- Bedingte Text-zu-Bild-Generierung
- Jahr 2024
- arXiv
- Kontrollierbare Erzeugung mit Text-zu-Bild-Diffusionsmodellen: Eine Umfrage [Aufsatz]
- Textgeführte Bildbearbeitung
- Jahr 2024
- arXiv
- Diffusionsmodellbasierte Bildbearbeitung: Eine Umfrage [Papier] [Code]
<Zurück nach oben>
Text-zu-Bild-Generierung
- Jahr 2024
- CVPR
- DistriFusion: Verteilte parallele Inferenz für hochauflösende Diffusionsmodelle [Papier] [Code]
- InstanceDiffusion: Kontrolle auf Instanzebene für die Bildgenerierung [Papier] [Code] [Projekt]
- ECLIPSE: Ein ressourceneffizienter Text-to-Image-Prior für die Bildgenerierung [Papier] [Code] [Projekt] [Demo]
- Instruct-Imagen: Bilderzeugung mit multimodaler Anweisung [Papier]
- Kontinuierliche 3D-Wörter für die Text-zu-Bild-Generierung lernen [Papier] [Code]
- HanDiffuser: Text-zu-Bild-Generierung mit realistischen Handerscheinungen [Papier]
- Umfangreiches menschliches Feedback für die Text-zu-Bild-Generierung [Papier]
- MarkovGen: Strukturierte Vorhersage für eine effiziente Text-zu-Bild-Generierung [Papier]
- Anpassungsassistent für die Text-zu-Bild-Generierung [Papier]
- ADI: Erlernen entwirrter Identifikatoren für die aktionsspezifische Text-zu-Bild-Generierung [Aufsatz] [Projekt]
- UFOGen: Sie leiten eine groß angelegte Text-zu-Bild-Generierung über Diffusions-GANs weiter [Papier]
- Selbstentdeckende interpretierbare latente Diffusionsrichtungen für eine verantwortungsvolle Text-zu-Bild-Generierung [Papier]
- Maßgeschneiderte Visionen: Verbesserung der Text-zu-Bild-Generierung durch personalisiertes Prompt-Rewriting [Papier] [Code]
- CoDi: Bedingte Diffusionsdestillation für höhere Wiedergabetreue und schnellere Bilderzeugung [Papier] [Code] [Projekt] [Demo]
- Bilderzeugung und Upsampling im beliebigen Maßstab unter Verwendung eines latenten Diffusionsmodells und eines impliziten neuronalen Decoders [Aufsatz]
- Auf dem Weg zur effektiven Nutzung menschenzentrierter Prioritäten in Diffusionsmodellen für die textbasierte Erzeugung menschlicher Bilder [Papier]
- ElasticDiffusion: Trainingsfreie Bildgenerierung beliebiger Größe [Papier] [Code] [Projekt] [Demo]
- CosmicMan: Ein Text-zu-Bild-Grundlagenmodell für Menschen [Papier] [Code] [Projekt]
- PanFusion: Zähmung der stabilen Diffusion für Text zur Erzeugung von 360°-Panoramabildern [Papier] [Code] [Projekt]
- Intelligent Grimm: Offenes visuelles Geschichtenerzählen mithilfe latenter Diffusionsmodelle [Aufsatz] [Code] [Projekt]
- Zur Skalierbarkeit der diffusionsbasierten Text-zu-Bild-Generierung [Aufsatz]
- MuLAn: Ein mehrschichtiger annotierter Datensatz für die steuerbare Text-zu-Bild-Generierung [Papier] [Projekt] [Datensatz]
- Lernen mehrdimensionaler menschlicher Vorlieben für die Text-zu-Bild-Generierung [Aufsatz]
- Dynamische Eingabeaufforderungsoptimierung für die Text-zu-Bild-Generierung [Papier]
- Training von Diffusionsmodellen zur Generierung vielfältiger Bilder mit Reinforcement Learning [Aufsatz]
- Widersprüchlicher Text zur kontinuierlichen Bildgenerierung [Papier] [Projekt] [Video]
- EmoGen: Emotionale Bildinhaltsgenerierung mit Text-zu-Bild-Diffusionsmodellen [Papier] [Code]
- ECCV
- Überbrückung verschiedener Sprachmodelle und generativer Visionsmodelle für die Text-zu-Bild-Generierung [Aufsatz] [Code] [Projekt]
- Erforschung der Erdung auf Phrasenebene mit dem Text-zu-Bild-Diffusionsmodell [Papier] [Code]
- Richtig machen: Verbesserung der räumlichen Konsistenz in Text-zu-Bild-Modellen [Papier] [Code] [Projekt]
- Navigieren zum generativen Text-zu-Bild-Bias in indischen Sprachen [Aufsatz] [Projekt]
- Schützen Sie Text-zu-Bild-Diffusionsmodelle mit menschlicher Feedback-Inversion [Aufsatz]
- Die Herstellung von Realität und Fantasie: Szenengenerierung mit LLM-unterstützter Sofortinterpretation [Aufsatz] [Code] [Projekt] [Datensatz]
- Zuverlässige und effiziente Konzeptlöschung von Text-zu-Bild-Diffusionsmodellen [Papier] [Code]
- Erforschung der Erdung auf Phrasenebene mit dem Text-zu-Bild-Diffusionsmodell [Papier] [Code]
- StyleTokenizer: Definieren des Bildstils durch eine einzelne Instanz zur Steuerung von Diffusionsmodellen [Papier] [Code]
- PEA-Diffusion: Parametereffizienter Adapter mit Wissensdestillation in der nicht-englischen Text-zu-Bild-Generierung [Aufsatz] [Code]
- Verzerrungen im Phänomenraum behindern die Generalisierung bei der Text-zu-Bild-Generierung [Papier] [Code]
- Parrot: Pareto-optimales Multi-Reward-Reinforcement-Lernframework für die Text-zu-Bild-Generierung [Papier]
- Überbrückung verschiedener Sprachmodelle und generativer Visionsmodelle für die Text-zu-Bild-Generierung [Aufsatz] [Code] [Projekt]
- MobileDiffusion: Sofortige Text-zu-Bild-Generierung auf Mobilgeräten [Papier]
- PixArt-Σ: Schwach-zu-stark-Training des Diffusionstransformators für die 4K-Text-zu-Bild-Generierung [Papier] [Code] [Projekt]
- CogView3: Feinere und schnellere Text-zu-Bild-Generierung durch Relay-Diffusion [Papier] [Code]
- ICLR
- Gepatchte Rauschunterdrückungs-Diffusionsmodelle für die hochauflösende Bildsynthese [Papier] [Code]
- Relay Diffusion: Vereinheitlichung des Diffusionsprozesses über Auflösungen hinweg für die Bildsynthese [Papier] [Code]
- SDXL: Verbesserung latenter Diffusionsmodelle für die hochauflösende Bildsynthese [Papier] [Code]
- Komponieren und Erobern: Diffusionsbasierte 3D-Tiefenbewusste zusammensetzbare Bildsynthese [Papier] [Code]
- PixArt-α: Schnelles Training des Diffusionstransformators für die fotorealistische Text-zu-Bild-Synthese [Papier] [Code] [Projekt] [Demo]
- SIGGRAPH
- RGB↔X: Bildzerlegung und -synthese unter Verwendung material- und beleuchtungsbewusster Diffusionsmodelle [Papier] [Projekt]
- AAAI
- Semantikbewusste Datenerweiterung für die Text-zu-Bild-Synthese [Aufsatz]
- Text-zu-Bild-Generierung für abstrakte Konzepte [Aufsatz]
- arXiv
- Self-Play-Feinabstimmung von Diffusionsmodellen für die Text-zu-Bild-Generierung [Papier]
- RPG: Beherrschung der Text-zu-Bild-Diffusion: Recaptioning, Planung und Generierung mit multimodalen LLMs [Paper] [Code]
- Playground v2.5: Drei Erkenntnisse zur Verbesserung der ästhetischen Qualität bei der Text-zu-Bild-Generierung [Papier] [Code]
- ResAdapter: Domänenkonsistenter Auflösungsadapter für Diffusionsmodelle [Papier] [Code] [Projekt]
- InstantID: Identitätserhaltende Zero-Shot-Generierung in Sekunden [Papier] [Code] [Projekt] [Demo]
- PIXART-δ: Schnelle und kontrollierbare Bilderzeugung mit latenten Konsistenzmodellen [Papier] [Code]
- ELLA: Diffusionsmodelle mit LLM für verbesserte semantische Ausrichtung ausrüsten [Papier] [Code] [Projekt]
- Text2Street: Steuerbare Text-zu-Bild-Generierung für Straßenansichten [Papier]
- LayerDiffuse: Transparente Bildebenendiffusion mit latenter Transparenz [Papier] [Code]
- SD3-Turbo: Schnelle hochauflösende Bildsynthese mit latenter kontradiktorischer Diffusionsdestillation [Papier]
- StreamMultiDiffusion: Interaktive Echtzeitgenerierung mit regionsbasierter semantischer Kontrolle [Papier] [Code]
- SVGDreamer: Textgesteuerte SVG-Generierung mit Diffusionsmodell [Papier] [Code] [Projekt]
- PromptCharm: Text-zu-Bild-Generierung durch multimodale Eingabeaufforderung und Verfeinerung [Papier]
- YOSO: Man probiert nur einmal: Zähmung der einstufigen Text-zu-Bild-Synthese durch selbstkooperative Diffusions-GANs [Papier] [Code]
- SingDiffusion: Bewältigung der Singularitäten an den Endpunkten von Zeitintervallen in Diffusionsmodellen [Aufsatz] [Code]
- CoMat: Ausrichten des Text-zu-Bild-Diffusionsmodells mit dem Bild-zu-Text-Konzept-Matching [Papier] [Code] [Projekt]
- StoryDiffusion: Konsistente Selbstaufmerksamkeit für die Generierung von Bildern und Videos mit großer Reichweite [Papier] [Code] [Projekt] [Demo]
- Flächenadapter für vorab trainierte Diffusionsmodelle mit feinkörniger ID und Attributkontrolle [Papier] [Projekt]
- LinFusion: 1 GPU, 1 Minute, 16K-Bild [Papier] [Code] [Projekt] [Demo]
- OmniGen: Einheitliche Bildgenerierung [Papier] [Code]
- ComPaSS: Verbesserung des räumlichen Verständnisses in Text-zu-Bild-Diffusionsmodellen [Papier] [Code]
- Andere
- Stabile Kaskade [Blog] [Code]
<Zurück nach oben>
- Jahr 2023
- CVPR
- GigaGAN: Skalierung von GANs für die Text-zu-Bild-Synthese [Papier] [Reproduzierter Code] [Projekt] [Video]
- ERNIE-ViLG 2.0: Verbesserung des Text-zu-Bild-Diffusionsmodells mit wissensbasierten Mixture-of-Doising-Experten [Papier]
- Verschobene Diffusion für die Text-zu-Bild-Generierung [Papier] [Code]
- GALIP: Generative Adversarial CLIPs für die Text-zu-Bild-Synthese [Papier] [Code]
- Spezialisierte Diffusion: Plug-and-Play-Sample-effiziente Feinabstimmung von Text-zu-Bild-Diffusionsmodellen zum Erlernen aller bisher unbekannten Stile [Papier] [Code]
- Auf dem Weg zu einer überprüfbaren und reproduzierbaren menschlichen Bewertung für die Text-zu-Bild-Generierung [Papier]
- RIATIG: Zuverlässige und nicht wahrnehmbare kontradiktorische Text-zu-Bild-Generierung mit natürlichen Eingabeaufforderungen [Papier] [Code]
- ICCV
- DiffFit: Erschließung der Übertragbarkeit großer Diffusionsmodelle durch einfache Parameter-effiziente Feinabstimmung [Papier] [Code] [Demo]
- NeurIPS
- ImageReward: Erlernen und Bewerten menschlicher Vorlieben für die Text-zu-Bild-Generierung [Papier] [Code]
- RAPHAEL : Text-zu-Bild-Generierung über eine große Mischung von Diffusionspfaden [Aufsatz] [Projekt]
- Sprachliche Bindung in Diffusionsmodellen: Verbesserung der Attributkorrespondenz durch Ausrichtung der Aufmerksamkeitskarte [Papier] [Code]
- DenseDiffusion: Dichte Text-zu-Bild-Generierung mit Aufmerksamkeitsmodulation [Papier] [Code]
- ICLR
- Trainingsfreie strukturierte Diffusionsanleitung für die kompositorische Text-zu-Bild-Synthese [Papier] [Code]
- ICML
- StyleGAN-T: Die Leistungsfähigkeit von GANs für eine schnelle groß angelegte Text-zu-Bild-Synthese erschließen [Papier] [Code] [Projekt] [Video]
- Muse: Text-zu-Bild-Generierung über maskierte generative Transformatoren [Papier] [Reproduzierter Code] [Projekt]
- UniDiffusers: Ein Transformator passt alle Verteilungen in der multimodalen Diffusion im Maßstab an [Papier] [Code]
- ACM MM
- SUR-Adapter: Verbesserung vorab trainierter Text-zu-Bild-Diffusionsmodelle mit großen Sprachmodellen [Papier] [Code]
- ControlStyle: Textgesteuerte stilisierte Bildgenerierung mithilfe von Diffusion Priors [Papier]
- SIGGRAPH
- Attend-and-Excite: Aufmerksamkeitsbasierte semantische Anleitung für Text-zu-Bild-Diffusionsmodelle [Papier] [Code] [Projekt] [Demo]
- arXiv
- P+: Erweiterte Textkonditionierung bei der Text-zu-Bild-Generierung [Aufsatz]
- SDXL-Turbo: Adversarial Diffusion Distillation [Papier] [Code]
- Würstchen: Eine effiziente Architektur für groß angelegte Text-zu-Bild-Diffusionsmodelle [Papier] [Code]
- StreamDiffusion: Eine Lösung auf Pipeline-Ebene für die interaktive Generierung in Echtzeit [Papier] [Projekt]
- ParaDiffusion: Absatz-zu-Bild-Generierung mit informationsangereichertem Diffusionsmodell [Papier] [Code]
- Andere
- DALL-E 3: Verbesserung der Bilderzeugung durch bessere Bildunterschriften [Papier]
<Zurück nach oben>
- Jahr 2022
- CVPR
- Stabile Diffusion: Hochauflösende Bildsynthese mit latenten Diffusionsmodellen [Papier] [Code] [Projekt]
- Vektorquantisiertes Diffusionsmodell für die Text-zu-Bild-Synthese [Papier] [Code]
- DF-GAN: Eine einfache und effektive Basis für die Text-zu-Bild-Synthese [Papier] [Code]
- LAFITE: Auf dem Weg zu sprachfreiem Training für die Text-zu-Bild-Generierung [Papier] [Code]
- Text-zu-Bild-Synthese basierend auf einem objektgesteuerten Joint-Decoding-Transformator [Papier]
- StyleT2I: Auf dem Weg zur kompositorischen und hochauflösenden Text-zu-Bild-Synthese [Aufsatz] [Code]
- ECCV
- Make-A-Scene: Szenenbasierte Text-zu-Bild-Generierung mit menschlichen Priors [Papier] [Code] [Demo]
- Trace-kontrollierte Text-zu-Bild-Generierung [Papier]
- Verbesserte maskierte Bilderzeugung mit Token-Critic [Papier]
- VQGAN-CLIP: Open-Domain-Bildgenerierung und -manipulation mithilfe natürlicher Sprache [Papier] [Code]
- TISE: Beutel mit Metriken für die Evaluierung der Text-zu-Bild-Synthese [Papier] [Code]
- StoryDALL-E: Anpassung vorab trainierter Text-zu-Bild-Transformatoren für die Story-Fortsetzung [Papier] [Code] [Demo]
- NeurIPS
- CogView2: Schnellere und bessere Text-zu-Bild-Generierung über hierarchische Transformatoren [Papier] [Code]
- Bild: Fotorealistische Text-zu-Bild-Diffusionsmodelle mit tiefem Sprachverständnis [Papier] [Reproduzierter Code] [Projekt] [ Bild 2 ]
- ACM MM
- Adma-GAN: Attributgesteuerte speichererweiterte GANs für die Text-zu-Bild-Generierung [Papier] [Code]
- Hintergrundlayoutgenerierung und Objektwissenstransfer für die Text-zu-Bild-Generierung [Papier]
- DSE-GAN: Dynamisches semantisches evolutionäres generatives kontradiktorisches Netzwerk für die Text-zu-Bild-Generierung [Papier]
- AtHom: Zwei unterschiedliche Aufmerksamkeiten, stimuliert durch homomorphes Training in der Text-zu-Bild-Synthese [Papier]
- arXiv
- DALLE-2: Hierarchische textbedingte Bildgenerierung mit CLIP-Latenten [Papier]
- PITI: Vorschulung ist alles, was Sie für die Bild-zu-Bild-Übersetzung benötigen [Papier] [Code]
<Zurück nach oben>
- Jahr 2021
- ICCV
- DAE-GAN: Dynamisches aspektbewusstes GAN für die Text-zu-Bild-Synthese [Papier] [Code]
- NeurIPS
- CogView: Beherrschung der Text-zu-Bild-Generierung über Transformer [Papier] [Code] [Demo]
- UFC-BERT: Vereinheitlichung multimodaler Kontrollen für die bedingte Bildsynthese [Papier]
- ICML
- DALLE-1: Zero-Shot-Text-zu-Bild-Generierung [Papier] [Reproduzierter Code]
- ACM MM
- Zykluskonsistentes inverses GAN für die Text-zu-Bild-Synthese [Papier]
- R-GAN: Erforschung eines menschenähnlichen Weges für eine vernünftige Text-zu-Bild-Synthese über generative kontradiktorische Netzwerke [Papier]
<Zurück nach oben>
- Jahr 2020
- ACM MM
- Text-zu-Bild-Synthese mittels ästhetischem Layout [Papier]
<Zurück nach oben>
Bedingte Text-zu-Bild-Generierung
- Jahr 2024
- CVPR
- PLACE: Adaptive Layout-Semantik-Fusion für die semantische Bildsynthese [Aufsatz]
- One-Shot-strukturbewusste stilisierte Bildsynthese [Papier]
- Fundierte Text-zu-Bild-Synthese mit Neufokussierung der Aufmerksamkeit [Papier] [Code] [Projekt] [Demo]
- Latente Diffusion von grob nach fein für die posengesteuerte Personenbildsynthese [Papier] [Code]
- DetDiffusion: Synergie von generativen und perzeptiven Modellen für eine verbesserte Datengenerierung und -wahrnehmung [Papier]
- CAN: Zustandsbewusstes neuronales Netzwerk zur kontrollierten Bilderzeugung [Papier]
- SceneDiffusion: Alles mit geschichteter Szenendiffusion bewegen [Papier]
- Zero-Painter: Trainingsfreie Layoutsteuerung für die Text-zu-Bild-Synthese [Papier] [Code]
- MIGC: Multi-Instance Generation Controller für die Text-zu-Bild-Synthese [Papier] [Code] [Projekt]
- FreeControl: Trainingsfreie räumliche Kontrolle eines beliebigen Text-zu-Bild-Diffusionsmodells mit jeder Bedingung [Papier] [Code] [Projekt]
- ECCV
- PreciseControl: Verbesserung von Text-zu-Bild-Diffusionsmodellen mit feinkörniger Attributsteuerung [Papier] [Code] [Projekt]
- AnyControl: Erstellen Sie Ihre Kunstwerke mit vielseitiger Kontrolle über die Text-zu-Bild-Generierung [Papier] [Code]
- ICLR
- Weiterentwicklung der positionsgesteuerten Bildsynthese mit progressiven bedingten Diffusionsmodellen [Papier] [Code]
- WACV
- Schulungsfreie Layoutsteuerung mit Queraufmerksamkeitsführung [Papier] [Code] [Projekt] [Demo]
- AAAI
- SSMG: Räumlich-semantisches Karten-gesteuertes Diffusionsmodell für die Freiform-Layout-zu-Bild-Generierung [Papier]
- Kompositionelle Text-zu-Bild-Synthese mit Aufmerksamkeitskartensteuerung von Diffusionsmodellen [Papier] [Code]
- arXiv
- DEADiff: Ein effizientes Stilisierungsdiffusionsmodell mit entwirrten Darstellungen [Papier]
- InstantStyle: Kostenloses Mittagessen zur Stilerhaltung bei der Text-zu-Bild-Generierung [Papier] [Code] [Projekt]
- ControlNet++: Verbesserung bedingter Kontrollen mit effizientem Konsistenz-Feedback [Aufsatz] [Projekt]
- Hunyuan-DiT: Ein leistungsstarker Diffusionstransformator mit mehreren Auflösungen und feinkörnigem chinesischen Verständnis [Papier] [Code] [Projekt]
- DialogGen: Multimodales interaktives Dialogsystem für die Multiturn-Text-zu-Bild-Generierung [Papier] [Code] [Projekt]
- ControlNeXt: Leistungsstarke und effiziente Steuerung für die Bild- und Videoerzeugung [Papier] [Code] [Projekt]
- UniPortrait: Ein einheitliches Framework für die identitätserhaltende Bildpersonalisierung einzelner und mehrerer Personen [Papier] [Code] [Projekt] [Demo]
- OmniControl: Minimale und universelle Steuerung für Diffusionstransformatoren [Papier] [Code] [Demo]
- UnZipLoRA: Inhalt und Stil von einem einzelnen Bild trennen [Papier] [Projekt]
- CtrLoRA: Ein erweiterbares und effizientes Framework für die kontrollierbare Bilderzeugung [Papier] [Code]
- Regionsbewusste Text-zu-Bild-Generierung durch harte Bindung und weiche Verfeinerung [Papier] [Code]
<Zurück nach oben>
- Jahr 2023
- CVPR
- GLIGEN: Open-Set Grounded Text-to-Image Generation [Papier] [Code] [Projekt] [Demo] [Video]
- Autoregressive Bilderzeugung mithilfe der Restquantisierung [Papier] [Code]
- SpaText: Räumlich-textuelle Darstellung zur kontrollierbaren Bilderzeugung [Aufsatz] [Projekt] [Video]
- Text-zu-Bild-Generierung mit semantisch-räumlich bewusstem GAN [Aufsatz]
- ReCo: Regionsgesteuerte Text-zu-Bild-Generierung [Papier] [Code]
- LayoutDiffusion: Steuerbares Diffusionsmodell für die Layout-zu-Bild-Generierung [Papier] [Code]
- ICCV
- ControlNet: Hinzufügen bedingter Kontrolle zu Text-zu-Bild-Diffusionsmodellen [Papier] [Code]
- SceneGenie: Scene Graph-geführte Diffusionsmodelle für die Bildsynthese [Papier] [Code]
- ZestGuide: Zero-Shot-Konditionierung des räumlichen Layouts für Text-zu-Bild-Diffusionsmodelle [Papier]
- ICML
- Komponist: Kreative und kontrollierbare Bildsynthese mit zusammensetzbaren Bedingungen [Aufsatz] [Code] [Projekt]
- MultiDiffusion: Verschmelzung von Diffusionspfaden zur kontrollierten Bilderzeugung [Papier] [Code] [Video] [Projekt] [Demo]
- SIGGRAPH
- Skizzengesteuerte Text-zu-Bild-Diffusionsmodelle [Papier] [Reproduzierter Code] [Projekt]
- NeurIPS
- Uni-ControlNet: All-in-One-Steuerung für Text-zu-Bild-Diffusionsmodelle [Papier] [Code] [Projekt]
- Prompt Diffusion: In-Context Learning für Diffusionsmodelle erschlossen [Paper] [Code] [Projekt]
- WACV
- Mehr Kontrolle kostenlos! Bildsynthese mit semantischer Diffusionsführung [Aufsatz]
- ACM MM
- LayoutLLM-T2I: Einholen von Layout-Anleitungen von LLM für die Text-zu-Bild-Generierung [Papier]
- arXiv
- T2I-Adapter: Lernende Adapter, um kontrollierbarere Möglichkeiten für Text-zu-Bild-Diffusionsmodelle zu finden [Papier] [Code] [Demo]
- BLIP-Diffusion: Vortrainierte Subjektrepräsentation für kontrollierbare Text-zu-Bild-Erzeugung und -Bearbeitung [Papier] [Code]
- Late-Constraint-Diffusionsanleitung für kontrollierbare Bildsynthese [Papier] [Code]
- Jahr 2022
- ICLR
- SDEdit: Geführte Bildsynthese und -bearbeitung mit stochastischen Differentialgleichungen [Papier] [Code] [Projekt]
<Zurück nach oben>
Personalisierte Text-zu-Bild-Generierung
- Jahr 2024
- CVPR
- Kreuzinitialisierung für die personalisierte Text-zu-Bild-Generierung [Papier]
- Wenn StyleGAN auf stabile Verbreitung trifft: ein W+-Adapter für die personalisierte Bilderzeugung [Papier] [Code] [Projekt]
- Stilgerechte Bildgenerierung über Shared Attention [Papier] [Code] [Projekt]
- InstantBooth: Personalisierte Text-zu-Bild-Generierung ohne Testzeit-Feinabstimmung [Papier] [Projekt]
- Personenzentrierte Subjekt-zu-Bild-Synthese mit hoher Wiedergabetreue [Aufsatz]
- RealCustom: Eingrenzen realer Textwörter für die Echtzeit-Text-zu-Bild-Anpassung im offenen Bereich [Papier] [Projekt]
- DisenDiff: Aufmerksamkeitskalibrierung für entwirrte Text-zu-Bild-Personalisierung [Papier] [Code]
- FreeCustom: Optimierungsfreie benutzerdefinierte Bildgenerierung für die Komposition mehrerer Konzepte [Papier] [Code] [Projekt]
- Personalisierte Residuen für die konzeptgesteuerte Text-zu-Bild-Generierung [Aufsatz]
- Verbesserung der subjektgesteuerten Bildsynthese mit subjektunabhängiger Anleitung [Aufsatz]
- JeDi: Joint-Image-Diffusionsmodelle für die feinabstimmungsfreie personalisierte Text-zu-Bild-Generierung [Papier]
- Gegen personalisierte Text-zu-Bild-Generierung mit Einflusswasserzeichen vorgehen [Papier]
- ECCV
- Sei du selbst: Begrenzte Aufmerksamkeit für die Text-zu-Bild-Generierung mit mehreren Subjekten [Aufsatz] [Projekt]
- Leistungsstark und flexibel: Personalisierte Text-zu-Bild-Generierung durch Reinforcement Learning [Paper] [Code]
- TIGC: Tuningfreie Bildanpassung mit Bild- und Textführung [Papier] [Code] [Projekt]
- MasterWeaver: Zähmung der Bearbeitbarkeit und Gesichtsidentität für die personalisierte Text-zu-Bild-Generierung [Papier] [Code] [Projekt]
- AAAI
- Entkoppelte Texteinbettungen für die maßgeschneiderte Bildgenerierung [Papier]
- arXiv
- FlashFace: Personalisierung menschlicher Bilder mit hochpräziser Identitätserhaltung [Papier] [Code] [Projekt]
- MoMA: Multimodaler LLM-Adapter für die schnelle personalisierte Bildgenerierung [Papier]
- IDAdapter: Erlernen gemischter Funktionen zur abstimmungsfreien Personalisierung von Text-zu-Bild-Modellen [Papier]
- CoRe: Kontextreguliertes Texteinbettungslernen für die Text-zu-Bild-Personalisierung [Papier]
- Stellen Sie sich vor: Optimierungsfreie personalisierte Bildgenerierung [Papier] [Projekt]
- Jahr 2023
- CVPR
- Benutzerdefinierte Diffusion: Multikonzept-Anpassung der Text-zu-Bild-Diffusion [Papier] [Code] [Projekt]
- DreamBooth: Feinabstimmung von Text-zu-Bild-Diffusionsmodellen für die subjektgesteuerte Generierung [Papier] [Code] [Projekt]
- ICCV
- ELITE: Kodierung visueller Konzepte in Texteinbettungen für die maßgeschneiderte Text-zu-Bild-Generierung [Papier] [Code]
- ICLR
- Textinversion: Ein Bild ist ein Wort wert: Personalisierung der Text-zu-Bild-Generierung mithilfe der Textinversion [Papier] [Code] [Projekt]
- SIGGRAPH
- Break-A-Scene: Extrahieren mehrerer Konzepte aus einem einzigen Bild [Papier] [Code]
- Encoderbasiertes Domänentuning für die schnelle Personalisierung von Text-zu-Bild-Modellen [Papier] [Projekt]
- LayerDiffusion: Schichtgesteuerte Bildbearbeitung mit Diffusionsmodellen [Papier]
- arXiv
- DreamTuner: Ein einzelnes Bild reicht für die subjektgesteuerte Generierung [Aufsatz] [Projekt]
- PhotoMaker: Anpassen realistischer menschlicher Fotos durch gestapelte ID-Einbettung [Papier] [Code]
- IP-Adapter: Textkompatibler Bildaufforderungsadapter für Text-zu-Bild-Diffusionsmodelle [Papier] [Code] [Projekt]
- FastComposer: Optimierungsfreie Multi-Subjekt-Bildgenerierung mit lokalisierter Aufmerksamkeit [Papier] [Code]
<Zurück nach oben>
Textgeführte Bildbearbeitung
- Jahr 2024
- CVPR
- InfEdit: Inversionsfreie Bildbearbeitung mit natürlicher Sprache [Papier] [Code] [Projekt]
- Auf dem Weg zum Verständnis von Kreuz- und Selbstaufmerksamkeit in stabiler Diffusion für die textgesteuerte Bildbearbeitung [Papier]
- Doppelt abduktive kontrafaktische Inferenz für textbasierte Bildbearbeitung [Papier] [Code]
- Konzentrieren Sie sich auf Ihren Unterricht: Feinkörnige Bildbearbeitung mit mehreren Anweisungen durch Aufmerksamkeitsmodulation [Papier] [Code]
- Kontrastiver Rauschunterdrückungs-Score für textgesteuerte Bildbearbeitung mit latenter Diffusion [Aufsatz]
- DragDiffusion: Nutzung von Diffusionsmodellen für die interaktive punktbasierte Bildbearbeitung [Papier] [Code]
- DiffEditor: Steigerung der Genauigkeit und Flexibilität bei der diffusionsbasierten Bildbearbeitung [Papier]
- FreeDrag: Feature-Ziehen für zuverlässige punktbasierte Bildbearbeitung [Papier] [Code]
- Textgesteuerte Bildbearbeitung über lernbare Regionen [Papier] [Code] [Projekt] [Video]
- LEDITS++: Grenzenlose Bildbearbeitung mit Text-zu-Bild-Modellen [Papier] [Code] [Projekt] [Demo]
- SmartEdit: Erkundung komplexer anweisungsbasierter Bildbearbeitung mit großen Sprachmodellen [Papier] [Code] [Projekt]
- Edit One for All: Interaktive Stapelbildbearbeitung [Papier] [Code] [Projekt]
- DiffMorpher: Die Leistungsfähigkeit von Diffusionsmodellen für das Bildmorphing freisetzen [Papier] [Code] [Projekt] [Demo]
- TiNO-Edit: Zeitschritt- und Rauschoptimierung für robuste diffusionsbasierte Bildbearbeitung [Papier] [Code]
- Person vor Ort: Generieren assoziativer Skelett-Führungskarten für die Bildbearbeitung bei der Mensch-Objekt-Interaktion [Papier] [Projekt] [Code]
- Verweisende Bildbearbeitung: Bildbearbeitung auf Objektebene über verweisende Ausdrücke [Papier]
- Prompt Augmentation für selbstüberwachte textgesteuerte Bildmanipulation [Papier]
- Der Teufel steckt im Detail: StyleFeatureEditor für detailreiche StyleGAN-Inversion und hochwertige Bildbearbeitung [Papier] [Code]
- ECCV
- RegionDrag: Schnelle regionsbasierte Bildbearbeitung mit Diffusionsmodellen [Papier] [Code] [Projekt] [Demo]
- TurboEdit: Sofortige textbasierte Bildbearbeitung [Papier] [Projekt]
- InstructGIE: Auf dem Weg zur verallgemeinerbaren Bildbearbeitung [Papier]
- StableDrag: Stabiles Ziehen für die punktbasierte Bildbearbeitung [Papier]
- Eta-Inversion: Entwurf einer optimalen Eta-Funktion für die diffusionsbasierte Bearbeitung realer Bilder [Papier] [Code] [Projekt]
- SwapAnything: Ermöglichen des Austauschs beliebiger Objekte in der personalisierten Bildbearbeitung [Papier] [Code] [Projekt]
- Guide-and-Rescale: Selbstführungsmechanismus für eine effektive, abstimmungsfreie Bearbeitung realer Bilder [Papier]
- FreeDiff: Progressive Frequenzkürzung für die Bildbearbeitung mit Diffusionsmodellen [Papier] [Code]
- Lazy Diffusion Transformer für interaktive Bildbearbeitung [Papier] [Projekt]
- ByteEdit: Generative Bildbearbeitung steigern, einhalten und beschleunigen [Papier] [Projekt]
- ICLR
- Anleitung zur anweisungsbasierten Bildbearbeitung über multimodale große Sprachmodelle [Papier] [Code] [Projekt]
- Der Segen des Zufalls: SDE schlägt ODE in der allgemeinen diffusionsbasierten Bildbearbeitung [Papier] [Code] [Projekt]
- Bewegungsführung: Diffusionsbasierte Bildbearbeitung mit differenzierbaren Bewegungsschätzern [Papier] [Code] [Projekt]
- Objektbewusste Inversion und Reassemblierung für die Bildbearbeitung [Papier] [Code] [Projekt]
- Anleitung zur Lärmkartenführung: Inversion mit räumlichem Kontext für die Bearbeitung realer Bilder [Papier]
- AAAI
- Optimierungsfreie, inversionsverbesserte Steuerung für konsistente Bildbearbeitung [Papier]
- BARET: Ausgewogene aufmerksamkeitsbasierte Realbildbearbeitung durch Zieltext-Inversion [Papier]
- Beschleunigung der Text-zu-Bild-Bearbeitung durch Cache-fähige Sparse-Diffusion-Inferenz [Papier]
- High-Fidelity-Diffusionsbasierte Bildbearbeitung [Papier]
- AdapEdit: Räumlich-zeitlich geführter adaptiver Bearbeitungsalgorithmus für die textbasierte kontinuitätsempfindliche Bildbearbeitung [Papier]
- TexFit: Textgesteuerte Modebildbearbeitung mit Diffusionsmodellen [Papier]
- arXiv
- Ein Artikel ist eine Aufforderung wert: Vielseitige Bildbearbeitung mit entwirrender Kontrolle [Papier] [Code]
- Eindimensionaler Adapter, um sie alle zu beherrschen: Konzepte, Diffusionsmodelle und Löschanwendungen [Papier] [Code] [Projekt]
- EditWorld: Simulation der Weltdynamik für die anweisungenfolgende Bildbearbeitung [Papier] [Code] [Projekt]
- ReasonPix2Pix: Instruction Reasoning-Datensatz für die erweiterte Bildbearbeitung [Papier]
- FlowEdit: Inversionsfreie textbasierte Bearbeitung mit vorab trainierten Flussmodellen [Papier] [Code] [Projekt] [Demo]
- Jahr 2023
- CVPR
- Aufdeckung der Entwirrungsfähigkeit in Text-zu-Bild-Diffusionsmodellen [Papier] [Code]
- SINE: Einzelbildbearbeitung mit Text-zu-Bild-Diffusionsmodellen [Papier] [Code]
- Imagic: Textbasierte Realbildbearbeitung mit Diffusionsmodellen [Papier]
- InstructPix2Pix: Lernen, Bildbearbeitungsanweisungen zu befolgen [Papier] [Code] [Datensatz] [Projekt] [Demo]
- Nulltext-Inversion zum Bearbeiten realer Bilder mithilfe von geführten Diffusionsmodellen [Papier] [Code]
- ICCV
- MasaCtrl: Abstimmungsfreie gegenseitige Selbstaufmerksamkeitskontrolle für konsistente Bildsynthese und -bearbeitung [Papier] [Code] [Projekt] [Demo]
- Lokalisieren von Formvariationen auf Objektebene mit Text-zu-Bild-Diffusionsmodellen [Papier] [Code] [Projekt] [Demo]
- ICLR
- SDEdit: Geführte Bildsynthese und -bearbeitung mit stochastischen Differentialgleichungen [Papier] [Code] [Projekt]
- Jahr 2022
- CVPR
- DiffusionCLIP: Textgesteuerte Diffusionsmodelle für robuste Bildmanipulation [Papier] [Code]
<Zurück nach oben>
Generierung von Textbildern
- Jahr 2024
- arXiv
- AnyText: Mehrsprachige visuelle Textgenerierung und -bearbeitung [Papier] [Code] [Projekt]
- CVPR
- SceneTextGen: Layoutunabhängige Szenentext-Bildsynthese mit integrierter Diffusion auf Zeichenebene und kontextueller Konsistenz [Papier]
<Zurück nach oben>
Datensätze
- Microsoft COCO: Gemeinsame Objekte im Kontext [Papier] [Datensatz]
- Konzeptionelle Bildunterschriften: Ein bereinigter, hypernymisierter Bild-Alt-Text-Datensatz für die automatische Bildunterschrift [Papier] [Datensatz]
- LAION-5B: Ein offener groß angelegter Datensatz zum Training von Bild-Text-Modellen der nächsten Generation [Papier] [Datensatz]
- PartiPrompts: Skalierung autoregressiver Modelle für die inhaltsreiche Text-zu-Bild-Generierung [Papier] [Datensatz] [Projekt]
<Zurück nach oben>
Toolkits
Name | Webseite | Beschreibung |
---|
Stabile Diffusion WebUI | Link | Basierend auf Gradio erstellt, lokal bereitgestellt, um Stable Diffusion Checkpoints, LoRA-Gewichte, ControlNet-Gewichte usw. auszuführen. |
Stabile Verbreitung WebUI-Forge | Link | Basierend auf Gradio erstellt, lokal bereitgestellt, um Stable Diffusion Checkpoints, LoRA-Gewichte, ControlNet-Gewichte usw. auszuführen. |
Fooocus | Link | Basierend auf Gradio, offline, Open Source und kostenlos. Eine manuelle Anpassung ist nicht erforderlich, und Benutzer müssen sich nur auf die Eingabeaufforderungen und Bilder konzentrieren. |
ComfyUI | Link | Wird lokal bereitgestellt, um individuelle Arbeitsabläufe mit Stable Diffusion zu ermöglichen |
Civitai | Link | Websites für Community Stable Diffusion und LoRA-Kontrollpunkte |
<Zurück nach oben>
Fragen und Antworten
- F: Die Konferenzsequenz dieser Papierliste?
- Diese Papierliste ist in der folgenden Reihenfolge organisiert:
- CVPR
- ICCV
- ECCV
- WACV
- NeurIPS
- ICLR
- ICML
- ACM MM
- SIGGRAPH
- AAAI
- arXiv
- Andere
- F: Worauf bezieht sich
Others
?- Einige der folgenden Studien (z. B.
Stable Casacade
) veröffentlichen ihren technischen Bericht nicht auf arXiv. Stattdessen neigen sie dazu, einen Blog auf ihren offiziellen Websites zu schreiben. Die Kategorie Others
bezieht sich auf solche Studien.
<Zurück nach oben>
Referenzen
Die Datei reference.bib
fasst Bibtex-Referenzen aktueller Bild-Inpainting-Papiere, weit verbreiteter Datensätze und Toolkits zusammen. Basierend auf den Originalreferenzen habe ich die folgenden Änderungen vorgenommen, damit ihre Ergebnisse in den LaTeX
-Manuskripten gut aussehen:
- Referenzen werden normalerweise in der Form
author-etal-year-nickname
erstellt. Insbesondere Referenzen von Datensätzen und Toolkits werden direkt als nickname
erstellt, z. B. imagenet
. - In jeder Referenz werden alle Namen von Konferenzen/Zeitschriften in Abkürzungen umgewandelt, z. B.
Computer Vision and Pattern Recognition -> CVPR
. - Die
url
, doi
, publisher
, organization
, editor
und series
in allen Referenzen werden entfernt. - Die
pages
aller Referenzen werden hinzugefügt, sofern diese fehlen. - Alle Papiernamen sind in Groß- und Kleinschreibung angegeben. Außerdem habe ich ein zusätzliches
{}
hinzugefügt, um sicherzustellen, dass die Groß-/Kleinschreibung im Titel auch in einigen bestimmten Vorlagen gut funktioniert.
Wenn Sie andere Anforderungen an Referenzformate haben, können Sie auf die Originalreferenzen der Arbeiten verweisen, indem Sie deren Namen in DBLP oder Google Scholar suchen.
Notiz
Beachten Sie, dass Referenzen auf der homepage
und im topic
in reference.bib
wiederholt werden können. Persönlich empfehle ich die Verwendung "Ctrl+F" / "Command+F"
um nach der gewünschten BibTeX
Referenz zu suchen.
<Zurück nach oben>
Sternengeschichte
<Zurück nach oben>