Kumpulan Studi Pembuatan Teks-ke-Gambar
Repositori GitHub ini merangkum makalah dan sumber daya yang terkait dengan tugas pembuatan teks-ke-gambar (T2I).
Catatan
Dokumen ini berfungsi sebagai homepage
seluruh repo GitHub. Makalah dirangkum berdasarkan arah penelitian yang berbeda, tahun penerbitan, dan konferensi.
Bagian topics
merangkum makalah yang sangat terkait dengan pembangkitan T2I menurut properti yang berbeda, misalnya prasyarat pembangkitan T2I, model difusi dengan teknik lain (misalnya Transformator Difusi, LLM, Mamba, dll.), dan model difusi untuk tugas lain.
Jika Anda memiliki saran tentang repositori ini, silakan memulai terbitan baru atau menarik permintaan.
Berita terkini dari repo GitHub ini tercantum sebagai berikut.
[November. 19] Kami telah merilis makalah terbaru kami yang berjudul "StableV2V: Menstabilkan Konsistensi Bentuk dalam Pengeditan Video-ke-Video", dengan kode yang sesuai, bobot model, dan tolok ukur pengujian DAVIS-Edit
bersumber terbuka. Jangan ragu untuk memeriksanya dari tautan!
Klik untuk melihat informasi lebih lanjut.
- [April. 26] Perbarui topik baru: Model Difusi Bertemu Pembelajaran Federasi. Lihat bagian
topics
untuk lebih jelasnya! - [Merusak. 28] Daftar makalah resmi AAAI 2024 telah dirilis! Versi resmi referensi PDF dan BibTeX diperbarui.
- [Merusak. 21] Bagian
topics
telah diperbarui. Bagian ini bertujuan untuk menawarkan daftar makalah yang diringkas menurut sifat-sifat lain dari model difusi , misalnya metode berbasis Transformator Difusi, model difusi untuk NLP, model difusi yang terintegrasi dengan LLM, dll. Referensi terkait dari makalah ini juga disimpulkan dalam reference.bib
. - [Merusak. 7] Semua makalah dan referensi CVPR, ICLR, dan AAAI 2024 yang tersedia diperbarui.
- [Merusak. 1] Situs web produk dan perangkat pembuatan teks-ke-gambar yang siap pakai dirangkum.
Isi
- Produk
- Daftar Tugas
- Dokumen
- Makalah Survei
- Pembuatan Teks-ke-Gambar
- Tahun 2024
- Tahun 2023
- Tahun 2022
- Tahun 2021
- Tahun 2020
- Pembuatan Teks-ke-Gambar Bersyarat
- Tahun 2024
- Tahun 2023
- Tahun 2022
- Pembuatan Teks-ke-Gambar yang Dipersonalisasi
- Pengeditan Gambar dengan Panduan Teks
- Tahun 2024
- Tahun 2023
- Tahun 2022
- Pembuatan Gambar Teks
- Kumpulan data
- Perangkat
- Tanya Jawab
- Referensi
- Sejarah Bintang
Daftar Tugas
- Makalah yang Diterbitkan tentang Konferensi
- Pemeliharaan Reguler Kertas arXiv Pracetak dan Kertas yang Hilang
<Kembali ke Atas>
Produk
Nama | Tahun | Situs web | Spesialisasi |
---|
Difusi Stabil 3 | 2024 | link | Difusi Stabil Berbasis Transformator Difusi |
Video Stabil | 2024 | link | Gambar resolusi tinggi berkualitas tinggi |
DALL-E 3 | 2023 | link | Berkolaborasi dengan ChatGPT |
Tulisan gambar | 2023 | link | Gambar teks |
Tempat bermain | 2023 | link | Gambar estetis |
HaiDream.ai | 2023 | link | - |
Dashtoon | 2023 | link | Generasi Teks-ke-Komik |
WHEE | 2023 | link | WHEE adalah alat pembuatan AI online, yang dapat diterapkan untuk generasi T2I, generasi I2I, SR, inpainting, outpainting, variasi gambar, uji coba virtual, dll. |
Vega AI | 2023 | link | Vega AI adalah alat pembuatan AI online, yang dapat diterapkan untuk generasi T2I, generasi I2I, SR, generasi T2V, generasi I2V, dll. |
Wujie AI | 2022 | link | Nama Tiongkoknya adalah "无界AI", yang menawarkan sumber daya AIGC dan layanan online |
Tengah perjalanan | 2022 | link | Alat pembangkitan sumber dekat yang kuat |
<Kembali ke Atas>
Dokumen
Makalah Survei
- Pembuatan Teks-ke-Gambar
- Tahun 2024
- Survei Komputasi ACM
- Model Difusi: Survei Komprehensif Metode dan Penerapannya [Makalah]
- Tahun 2023
- TPAMI
- Model Difusi dalam Visi: Survei [Makalah] [Kode]
- arXiv
- Model Difusi Teks-ke-gambar dalam AI Generatif: Survei [Makalah]
- Canggih Model Difusi untuk Komputasi Visual [Makalah]
- Tahun 2022
- arXiv
- Model Difusi yang Efisien untuk Penglihatan: Sebuah Survei [Makalah]
- Pembuatan Teks-ke-Gambar Bersyarat
- Tahun 2024
- arXiv
- Pembuatan Terkendali dengan Model Difusi Teks-ke-Gambar: Sebuah Survei [Makalah]
- Pengeditan Gambar dengan Panduan Teks
- Tahun 2024
- arXiv
- Pengeditan Gambar Berbasis Model Difusi: Survei [Makalah] [Kode]
<Kembali ke Atas>
Pembuatan Teks-ke-Gambar
- Tahun 2024
- CVPR
- DistriFusion: Inferensi Paralel Terdistribusi untuk Model Difusi Resolusi Tinggi [Makalah] [Kode]
- InstanceDiffusion: Kontrol Tingkat Instance untuk Pembuatan Gambar [Kertas] [Kode] [Proyek]
- ECLIPSE: Text-to-Image yang Efisien Sumber Daya Sebelum Pembuatan Gambar [Makalah] [Kode] [Proyek] [Demo]
- Instruct-Imagen: Pembuatan Gambar dengan Instruksi Multi-modal [Kertas]
- Mempelajari Kata-kata 3D Berkelanjutan untuk Pembuatan Teks-ke-Gambar [Kertas] [Kode]
- HanDiffuser: Pembuatan Teks-ke-Gambar dengan Tampilan Tangan yang Realistis [Kertas]
- Umpan Balik Manusia yang Kaya untuk Pembuatan Teks-ke-Gambar [Makalah]
- MarkovGen: Prediksi Terstruktur untuk Pembuatan Teks-ke-Gambar yang Efisien [Makalah]
- Asisten Kustomisasi untuk Pembuatan Teks-ke-gambar [Kertas]
- ADI: Mempelajari Pengidentifikasi Terurai untuk Pembuatan Teks-ke-Gambar yang Disesuaikan dengan Tindakan [Makalah] [Proyek]
- UFOGen: Anda Meneruskan Sekali Pembuatan Teks-ke-Gambar Skala Besar melalui Difusi GAN [Kertas]
- Menemukan Arah Laten Difusi yang Dapat Ditafsirkan untuk Pembuatan Teks-ke-Gambar yang Bertanggung Jawab [Makalah]
- Visi yang Disesuaikan: Meningkatkan Pembuatan Teks-ke-Gambar dengan Penulisan Ulang Cepat yang Dipersonalisasi [Kertas] [Kode]
- CoDi: Distilasi Difusi Bersyarat untuk Menghasilkan Gambar dengan Ketelitian Lebih Tinggi dan Lebih Cepat [Makalah] [Kode] [Proyek] [Demo]
- Pembuatan dan Pengambilan Sampel Gambar Skala Sewenang-wenang menggunakan Model Difusi Laten dan Dekoder Neural Implisit [Makalah]
- Menuju Penggunaan Prioritas yang Berpusat pada Manusia secara Efektif dalam Model Difusi untuk Pembuatan Citra Manusia Berbasis Teks [Makalah]
- ElasticDiffusion: Pembuatan Gambar Ukuran Sewenang-wenang Tanpa Pelatihan [Kertas] [Kode] [Proyek] [Demo]
- CosmicMan: Model Landasan Text-to-Image untuk Manusia [Kertas] [Kode] [Proyek]
- PanFusion: Menjinakkan Difusi Stabil untuk Teks ke Pembuatan Gambar Panorama 360° [Kertas] [Kode] [Proyek]
- Intelligent Grimm: Pengisahan Cerita Visual Terbuka melalui Model Difusi Laten [Kertas] [Kode] [Proyek]
- Tentang Skalabilitas Pembuatan Teks-ke-Gambar Berbasis Difusi [Makalah]
- MuLAN: Kumpulan Data Beranotasi Multi Lapis untuk Pembuatan Teks-ke-Gambar yang Terkendali [Kertas] [Proyek] [Kumpulan Data]
- Mempelajari Preferensi Manusia Multidimensi untuk Pembuatan Teks-ke-Gambar [Makalah]
- Pengoptimalan Prompt Dinamis untuk Pembuatan Teks-ke-Gambar [Kertas]
- Pelatihan Model Difusi Menuju Generasi Gambar yang Beragam dengan Pembelajaran Penguatan [Makalah]
- Teks Adversarial untuk Pembuatan Gambar Berkelanjutan [Makalah] [Proyek] [Video]
- EmoGen: Pembuatan Konten Gambar Emosional dengan Model Difusi Teks-ke-Gambar [Kertas] [Kode]
- ECCV
- Menjembatani Berbagai Model Bahasa dan Model Visi Generatif untuk Pembuatan Teks-ke-Gambar [Makalah] [Kode] [Proyek]
- Menjelajahi Pembumian Tingkat Frasa dengan Model Difusi Teks-ke-Gambar [Kertas] [Kode]
- Melakukannya dengan Benar: Meningkatkan Konsistensi Spasial dalam Model Teks-ke-Gambar [Kertas] [Kode] [Proyek]
- Menavigasi Bias Generatif Teks-ke-Gambar dalam Bahasa India [Makalah] [Proyek]
- Lindungi Model Difusi Teks-ke-Gambar dengan Inversi Umpan Balik Manusia [Makalah]
- Pembuatan Realitas dan Fantasi: Pembuatan Adegan dengan Interpretasi Cepat Berbantuan LLM [Makalah] [Kode] [Proyek] [Kumpulan Data]
- Penghapusan Konsep Model Difusi Teks-ke-Gambar yang Andal dan Efisien [Kertas] [Kode]
- Menjelajahi Pembumian Tingkat Frasa dengan Model Difusi Teks-ke-Gambar [Kertas] [Kode]
- StyleTokenizer: Mendefinisikan Gaya Gambar dengan Satu Instans untuk Mengontrol Model Difusi [Kertas] [Kode]
- Difusi PEA: Adaptor Efisien Parameter dengan Distilasi Pengetahuan dalam Pembuatan Teks-ke-Gambar non-Inggris [Kertas] [Kode]
- Kecondongan dalam Ruang Fenomena Menghambat Generalisasi dalam Pembuatan Teks-ke-Gambar [Kertas] [Kode]
- Parrot: Kerangka Pembelajaran Penguatan Multi-Reward Pareto-optimal untuk Pembuatan Teks-ke-Gambar [Makalah]
- Menjembatani Berbagai Model Bahasa dan Model Visi Generatif untuk Pembuatan Teks-ke-Gambar [Makalah] [Kode] [Proyek]
- MobileDiffusion: Pembuatan Teks-ke-Gambar Instan di Perangkat Seluler [Kertas]
- PixArt-Σ: Pelatihan Transformator Difusi Lemah hingga Kuat untuk Pembuatan Teks-ke-Gambar 4K [Kertas] [Kode] [Proyek]
- CogView3: Pembuatan Teks-ke-Gambar yang Lebih Baik dan Lebih Cepat melalui Difusi Relai [Kertas] [Kode]
- ICLR
- Model Difusi Denoising yang Ditambal Untuk Sintesis Gambar Resolusi Tinggi [Kertas] [Kode]
- Difusi Relai: Menyatukan proses difusi lintas resolusi untuk sintesis gambar [Kertas] [Kode]
- SDXL: Meningkatkan Model Difusi Laten untuk Sintesis Gambar Resolusi Tinggi [Makalah] [Kode]
- Tulis dan Taklukkan: Sintesis Gambar yang Dapat Dikomposisi Sadar Kedalaman 3D Berbasis Difusi [Makalah] [Kode]
- PixArt-α: Pelatihan Cepat Transformator Difusi untuk Sintesis Teks-ke-Gambar Fotorealistik [Kertas] [Kode] [Proyek] [Demo]
- SIGGRAPH
- RGB↔X: Dekomposisi dan Sintesis Gambar Menggunakan Model Difusi Material dan Pencahayaan [Kertas] [Proyek]
- AAAI
- Augmentasi Data Sadar Semantik untuk Sintesis Teks-ke-gambar [Makalah]
- Pembuatan Teks-ke-Gambar untuk Konsep Abstrak [Makalah]
- arXiv
- Penyempurnaan Model Difusi Permainan Mandiri untuk Pembuatan Teks-ke-Gambar [Makalah]
- RPG: Menguasai Difusi Teks-ke-Gambar: Pembuatan Ulang, Perencanaan, dan Pembuatan dengan LLM Multimodal [Makalah] [Kode]
- Playground v2.5: Tiga Wawasan untuk Meningkatkan Kualitas Estetika dalam Pembuatan Teks-ke-Gambar [Kertas] [Kode]
- ResAdapter: Adaptor Resolusi Konsisten Domain untuk Model Difusi [Kertas] [Kode] [Proyek]
- InstantID: Generasi Pelestarian Identitas Zero-shot dalam Hitungan Detik [Kertas] [Kode] [Proyek] [Demo]
- PIXART-δ: Pembuatan Gambar yang Cepat dan Terkendali dengan Model Konsistensi Laten [Kertas] [Kode]
- ELLA: Lengkapi Model Difusi dengan LLM untuk Peningkatan Penyelarasan Semantik [Kertas] [Kode] [Proyek]
- Text2Street: Pembuatan Teks-ke-gambar yang Dapat Dikontrol untuk Street View [Paper]
- LayerDiffuse: Difusi Lapisan Gambar Transparan menggunakan Transparansi Laten [Kertas] [Kode]
- SD3-Turbo: Sintesis Gambar Resolusi Tinggi yang Cepat dengan Distilasi Difusi Adversarial Laten [Makalah]
- StreamMultiDiffusion: Pembuatan Interaktif Waktu Nyata dengan Kontrol Semantik Berbasis Wilayah [Kertas] [Kode]
- SVGDreamer: Pembuatan SVG yang Dipandu Teks dengan Model Difusi [Kertas] [Kode] [Proyek]
- PromptCharm: Pembuatan Teks-ke-Gambar melalui Prompt dan Penyempurnaan Multi-modal [Makalah]
- YOSO: Anda Hanya Mengambil Sampel Sekali: Menjinakkan Sintesis Teks-ke-Gambar Satu Langkah dengan GAN Difusi Kooperatif Mandiri [Kertas] [Kode]
- SingDiffusion: Mengatasi Singularitas pada Titik Akhir Interval Waktu dalam Model Difusi [Makalah] [Kode]
- CoMat: Menyelaraskan Model Difusi Teks-ke-Gambar dengan Pencocokan Konsep Gambar-ke-Teks [Kertas] [Kode] [Proyek]
- Difusi Cerita: Perhatian Diri yang Konsisten untuk Pembuatan Gambar dan Video Jarak Jauh [Makalah] [Kode] [Proyek] [Demo]
- Adaptor Wajah untuk Model Difusi Terlatih dengan ID Berbutir Halus dan Kontrol Atribut [Kertas] [Proyek]
- LinFusion: 1 GPU, 1 Menit, 16K Gambar [Kertas] [Kode] [Proyek] [Demo]
- OmniGen: Pembuatan Gambar Terpadu [Kertas] [Kode]
- CoMPaSS: Meningkatkan Pemahaman Spasial dalam Model Difusi Teks-ke-Gambar [Makalah] [Kode]
- Yang lain
- Kaskade Stabil [Blog] [Kode]
<Kembali ke Atas>
- Tahun 2023
- CVPR
- GigaGAN: Meningkatkan GAN untuk Sintesis Teks-ke-Gambar [Makalah] [Kode yang Direproduksi] [Proyek] [Video]
- ERNIE-ViLG 2.0: Meningkatkan Model Difusi Teks-ke-Gambar Dengan Campuran-Pakar-Denoising-Peningkatan Pengetahuan [Makalah]
- Pergeseran Difusi untuk Pembuatan Teks-ke-gambar [Kertas] [Kode]
- GALIP: CLIP Adversarial Generatif untuk Sintesis Teks-ke-Gambar [Makalah] [Kode]
- Difusi Spesialis: Penyempurnaan Model Difusi Teks-ke-Gambar dengan Sampel Plug-and-Play yang Efisien untuk Mempelajari Gaya Apa Pun yang Tak Terlihat [Kertas] [Kode]
- Menuju Evaluasi Manusia yang Dapat Diverifikasi dan Direproduksi untuk Pembuatan Teks-ke-Gambar [Makalah]
- RIATIG: Pembuatan Teks-ke-Gambar Permusuhan yang Andal dan Tak Terlihat dengan Anjuran Alami [Kertas] [Kode]
- ICCV
- DiffFit: Membuka Kemampuan Transfer Model Difusi Besar melalui Penyempurnaan Efisien Parameter Sederhana [Kertas] [Kode] [Demo]
- sarafIPS
- ImageReward: Mempelajari dan Mengevaluasi Preferensi Manusia untuk Pembuatan Teks-ke-Gambar [Makalah] [Kode]
- RAPHAEL : Pembuatan Teks-ke-Gambar melalui Campuran Besar Jalur Difusi [Makalah] [Proyek]
- Pengikatan Linguistik dalam Model Difusi: Meningkatkan Korespondensi Atribut melalui Penyelarasan Peta Perhatian [Makalah] [Kode]
- Difusi Padat: Pembuatan Teks-ke-Gambar Padat dengan Modulasi Perhatian [Kertas] [Kode]
- ICLR
- Panduan Difusi Terstruktur Bebas Pelatihan untuk Sintesis Komposisi Teks-ke-Gambar [Makalah] [Kode]
- ICML
- StyleGAN-T: Membuka Kekuatan GAN untuk Sintesis Teks-ke-Gambar Skala Besar yang Cepat [Kertas] [Kode] [Proyek] [Video]
- Muse: Pembuatan Teks-Ke-Gambar melalui Masked Generative Transformers [Kertas] [Kode yang Direproduksi] [Proyek]
- UniDiffusers: Satu Transformator Cocok untuk Semua Distribusi dalam Difusi Multi-Modal dalam Skala Besar [Kertas] [Kode]
- ACM MM
- Adaptor SUR: Meningkatkan Model Difusi Terlatih Teks-ke-Gambar dengan Model Bahasa Besar [Kertas] [Kode]
- ControlStyle: Pembuatan Gambar Bergaya Berbasis Teks Menggunakan Diffusion Priors [Paper]
- TANDA TANGAN
- Attend-and-Excite: Panduan Semantik Berbasis Perhatian untuk Model Difusi Teks-ke-Gambar [Kertas] [Kode] [Proyek] [Demo]
- arXiv
- P+: Pengkondisian Tekstual yang Diperluas dalam Pembuatan Teks-ke-Gambar [Makalah]
- SDXL-Turbo: Distilasi Difusi Adversarial [Kertas] [Kode]
- Wuerstchen: Arsitektur yang Efisien untuk Model Difusi Teks-ke-Gambar Skala Besar [Kertas] [Kode]
- StreamDiffusion: Solusi Tingkat Pipeline untuk Pembuatan Interaktif Real-time [Makalah] [Proyek]
- ParaDiffusion: Pembuatan Paragraf-ke-Gambar dengan Model Difusi yang Diperkaya Informasi [Kertas] [Kode]
- Yang lain
- DALL-E 3: Meningkatkan Pembuatan Gambar dengan Teks yang Lebih Baik [Kertas]
<Kembali ke Atas>
- Tahun 2022
- CVPR
- Difusi Stabil: Sintesis Gambar Resolusi Tinggi Dengan Model Difusi Laten [Kertas] [Kode] [Proyek]
- Model Difusi Terkuantisasi Vektor untuk Sintesis Teks-ke-Gambar [Kertas] [Kode]
- DF-GAN: Dasar Sederhana dan Efektif untuk Sintesis Teks-ke-Gambar [Makalah] [Kode]
- LAFITE: Menuju Pelatihan Tanpa Bahasa untuk Pembuatan Teks-ke-Gambar [Kertas] [Kode]
- Sintesis Teks-ke-Gambar berdasarkan Transformator Decoding Gabungan yang Dipandu Objek [Kertas]
- StyleT2I: Menuju Sintesis Teks-ke-Gambar dengan Komposisi dan Ketelitian Tinggi [Kertas] [Kode]
- ECCV
- Make-A-Scene: Pembuatan Teks-ke-Gambar Berbasis Adegan dengan Priors Manusia [Kertas] [Kode] [Demo]
- Lacak Teks Terkendali ke Pembuatan Gambar [Kertas]
- Peningkatan Pembuatan Gambar Bertopeng dengan Token-Critic [Paper]
- VQGAN-CLIP: Pembuatan dan Manipulasi Gambar Domain Terbuka Menggunakan Bahasa Alami [Kertas] [Kode]
- TISE: Kumpulan Metrik untuk Evaluasi Sintesis Teks-ke-Gambar [Makalah] [Kode]
- StoryDALL-E: Mengadaptasi Transformer Teks-ke-gambar yang Telah Dilatih untuk Kelanjutan Cerita [Kertas] [Kode] [Demo]
- sarafIPS
- CogView2: Pembuatan Teks-ke-Gambar yang Lebih Cepat dan Lebih Baik melalui Hierarchical Transformers [Paper] [Code]
- Gambar: Model Difusi Teks-ke-Gambar Fotorealistik dengan Pemahaman Bahasa yang Mendalam [Makalah] [Kode yang Direproduksi] [Proyek] [ Gambar 2 ]
- ACM MM
- Adma-GAN: GAN Augmented Memori Berbasis Atribut untuk Pembuatan Teks-ke-Gambar [Kertas] [Kode]
- Pembuatan Tata Letak Latar Belakang dan Transfer Pengetahuan Objek untuk Pembuatan Teks-ke-Gambar [Makalah]
- DSE-GAN: Jaringan Adversarial Generatif Evolusi Semantik Dinamis untuk Pembuatan Teks-ke-Gambar [Makalah]
- AtHom: Dua Perhatian Divergen yang Dirangsang Oleh Pelatihan Homomorfik dalam Sintesis Teks-ke-Gambar [Makalah]
- arXiv
- DALLE-2: Pembuatan Gambar Bersyarat Teks Hierarki dengan CLIP Latents [Paper]
- PITI: Hanya Pelatihan Awal yang Anda Butuhkan untuk Penerjemahan Gambar-ke-Gambar [Kertas] [Kode]
<Kembali ke Atas>
- Tahun 2021
- ICCV
- DAE-GAN: GAN Sadar Aspek Dinamis untuk Sintesis Teks-ke-Gambar [Kertas] [Kode]
- sarafIPS
- CogView: Menguasai Pembuatan Teks-ke-Gambar melalui Transformers [Kertas] [Kode] [Demo]
- UFC-BERT: Menyatukan Kontrol Multi-Modal untuk Sintesis Gambar Bersyarat [Makalah]
- ICML
- DALLE-1: Pembuatan Teks-ke-Gambar Zero-Shot [Kertas] [Kode Direproduksi]
- ACM MM
- GAN Invers yang Konsisten Siklus untuk Sintesis Teks-ke-Gambar [Makalah]
- R-GAN: Menjelajahi Cara Mirip Manusia untuk Sintesis Teks-ke-Gambar yang Wajar melalui Jaringan Adversarial Generatif [Makalah]
<Kembali ke Atas>
- Tahun 2020
- ACM MM
- Sintesis Teks-ke-Gambar melalui Tata Letak Estetika [Kertas]
<Kembali ke Atas>
Pembuatan Teks-ke-Gambar Bersyarat
- Tahun 2024
- CVPR
- PLACE: Tata Letak Adaptif-Penggabungan Semantik untuk Sintesis Gambar Semantik [Makalah]
- Sintesis Gambar Bergaya Sadar Struktur Satu Pemotretan [Kertas]
- Sintesis Teks-ke-Gambar Beralas dengan Pemfokusan Ulang Perhatian [Kertas] [Kode] [Proyek] [Demo]
- Difusi Laten Kasar hingga Halus untuk Sintesis Gambar Orang yang Dipandu Pose [Makalah] [Kode]
- DetDiffusion: Mensinergikan Model Generatif dan Perseptif untuk Peningkatan Pembuatan dan Persepsi Data [Makalah]
- CAN: Jaringan Neural Sadar Kondisi untuk Pembuatan Gambar Terkendali [Makalah]
- SceneDiffusion: Pindahkan Apa Pun dengan Difusi Adegan Berlapis [Kertas]
- Zero-Painter: Kontrol Tata Letak Tanpa Pelatihan untuk Sintesis Teks-ke-Gambar [Kertas] [Kode]
- MIGC: Pengontrol Pembuatan Multi-Instance untuk Sintesis Teks-ke-Gambar [Kertas] [Kode] [Proyek]
- FreeControl: Kontrol Spasial Tanpa Pelatihan untuk Model Difusi Teks-ke-Gambar Apa Pun dengan Kondisi Apa Pun [Kertas] [Kode] [Proyek]
- ECCV
- PreciseControl: Meningkatkan Model Difusi Teks-Ke-Gambar dengan Kontrol Atribut Berbutir Halus [Kertas] [Kode] [Proyek]
- AnyControl: Buat Karya Seni Anda dengan Kontrol Serbaguna pada Pembuatan Teks-ke-Gambar [Kertas] [Kode]
- ICLR
- Memajukan Sintesis Gambar Berpanduan Pose dengan Model Difusi Bersyarat Progresif [Makalah] [Kode]
- WACV
- Kontrol Tata Letak Tanpa Pelatihan dengan Panduan Lintas Perhatian [Kertas] [Kode] [Proyek] [Demo]
- AAAI
- SSMG: Model Difusi Terpandu Peta Spasial-Semantik untuk Pembuatan Tata Letak Bentuk Bebas [Makalah]
- Sintesis Komposisi Teks-ke-Gambar dengan Kontrol Peta Perhatian Model Difusi [Kertas] [Kode]
- arXiv
- DEADiff: Model Difusi Stilisasi yang Efisien dengan Representasi yang Terurai [Makalah]
- InstantStyle: Makan Siang Gratis untuk Mempertahankan Gaya dalam Pembuatan Teks-ke-Gambar [Kertas] [Kode] [Proyek]
- ControlNet++: Meningkatkan Kontrol Bersyarat dengan Umpan Balik Konsistensi yang Efisien [Makalah] [Proyek]
- Hunyuan-DiT: Transformator Difusi Multi-Resolusi yang Kuat dengan Pemahaman Tiongkok yang Sangat Baik [Makalah] [Kode] [Proyek]
- DialogGen: Sistem Dialog Interaktif Multi-modal untuk Pembuatan Teks-ke-Gambar Multi-putaran [Kertas] [Kode] [Proyek]
- ControlNeXt: Kontrol yang Kuat dan Efisien untuk Pembuatan Gambar dan Video [Kertas] [Kode] [Proyek]
- UniPortrait: Kerangka Kerja Terpadu untuk Personalisasi Citra Tunggal dan Multi-Manusia yang Melestarikan Identitas [Makalah] [Kode] [Proyek] [Demo]
- OmniControl: Kontrol Minimal dan Universal untuk Transformator Difusi [Kertas] [Kode] [Demo]
- UnZipLoRA: Memisahkan Konten dan Gaya dari Satu Gambar [Kertas] [Proyek]
- CtrLoRA: Kerangka Kerja yang Dapat Diperluas dan Efisien untuk Pembuatan Gambar Terkendali [Makalah] [Kode]
- Pembuatan Teks-ke-Gambar Sadar Wilayah melalui Penjilidan Keras dan Penyempurnaan Lembut [Kertas] [Kode]
<Kembali ke Atas>
- Tahun 2023
- CVPR
- GLIGEN: Pembuatan Teks-ke-Gambar Beralas Set Terbuka [Kertas] [Kode] [Proyek] [Demo] [Video]
- Pembuatan Gambar Autoregresif menggunakan Kuantisasi Residual [Kertas] [Kode]
- SpaText: Representasi Spatio-Tekstual untuk Pembuatan Gambar Terkendali [Makalah] [Proyek] [Video]
- Pembuatan Teks ke Gambar dengan GAN Sadar Semantik-Spasial [Paper]
- ReCo: Pembuatan Teks-ke-Gambar yang Dikontrol Wilayah [Kertas] [Kode]
- LayoutDiffusion: Model Difusi Terkendali untuk Pembuatan Layout-ke-gambar [Kertas] [Kode]
- ICCV
- ControlNet: Menambahkan Kontrol Bersyarat ke Model Difusi Teks-ke-Gambar [Kertas] [Kode]
- SceneGenie: Model Difusi Terpandu Grafik Pemandangan untuk Sintesis Gambar [Kertas] [Kode]
- ZestGuide: Pengkondisian Tata Letak Spasial Zero-Shot untuk Model Difusi Teks-ke-Gambar [Kertas]
- ICML
- Komposer: Sintesis Gambar yang Kreatif dan Terkendali dengan Kondisi yang Dapat Dikomposisi [Kertas] [Kode] [Proyek]
- MultiDiffusion: Menggabungkan Jalur Difusi untuk Pembuatan Gambar Terkendali [Kertas] [Kode] [Video] [Proyek] [Demo]
- TANDA TANGAN
- Model Difusi Teks-ke-Gambar yang Dipandu Sketsa [Kertas] [Kode Reproduksi] [Proyek]
- sarafIPS
- Uni-ControlNet: Kontrol Lengkap untuk Model Difusi Teks-ke-Gambar [Kertas] [Kode] [Proyek]
- Difusi Cepat: Pembelajaran Dalam Konteks Terbuka untuk Model Difusi [Makalah] [Kode] [Proyek]
- WACV
- Lebih Banyak Kontrol Gratis! Sintesis Gambar dengan Panduan Difusi Semantik [Makalah]
- ACM MM
- LayoutLLM-T2I: Mendapatkan Panduan Tata Letak dari LLM untuk Pembuatan Teks-ke-Gambar [Makalah]
- arXiv
- Adaptor T2I: Adaptor Pembelajaran untuk Menggali Kemampuan yang Lebih Terkendali untuk Model Difusi Teks-ke-Gambar [Kertas] [Kode] [Demo]
- Difusi BLIP: Representasi Subjek Terlatih untuk Pembuatan dan Pengeditan Teks-ke-Gambar yang Dapat Dikontrol [Kertas] [Kode]
- Panduan Difusi Batasan Akhir untuk Sintesis Gambar Terkendali [Makalah] [Kode]
- Tahun 2022
- ICLR
- SDEdit: Sintesis dan Pengeditan Gambar Terpandu dengan Persamaan Diferensial Stokastik [Makalah] [Kode] [Proyek]
<Kembali ke Atas>
Pembuatan Teks-ke-Gambar yang Dipersonalisasi
- Tahun 2024
- CVPR
- Inisialisasi Silang untuk Pembuatan Teks-ke-Gambar yang Dipersonalisasi [Makalah]
- Saat StyleGAN Memenuhi Difusi Stabil: Adaptor W+ untuk Pembuatan Gambar yang Dipersonalisasi [Kertas] [Kode] [Proyek]
- Pembuatan Gambar yang Selaras Gaya melalui Perhatian Bersama [Kertas] [Kode] [Proyek]
- InstantBooth: Pembuatan Teks-ke-Gambar yang Dipersonalisasi tanpa Penyempurnaan Waktu Pengujian [Kertas] [Proyek]
- Sintesis Subjek-ke-Gambar yang Berpusat pada Orang dengan Ketelitian Tinggi [Makalah]
- RealCustom: Mempersempit Kata Teks Asli untuk Kustomisasi Teks-ke-Gambar Domain Terbuka Secara Real-Time [Makalah] [Proyek]
- DisenDiff: Kalibrasi Perhatian untuk Personalisasi Teks-ke-Gambar yang Terurai [Kertas] [Kode]
- FreeCustom: Pembuatan Gambar Khusus Tanpa Penyetelan untuk Komposisi Multi-Konsep [Kertas] [Kode] [Proyek]
- Residu yang Dipersonalisasi untuk Pembuatan Teks-ke-Gambar Berbasis Konsep [Makalah]
- Meningkatkan Sintesis Gambar Berbasis Subjek dengan Panduan Subjek-Agnostik [Makalah]
- JeDi: Model Difusi Gambar Bersama untuk Pembuatan Teks-ke-Gambar yang Dipersonalisasi dan Bebas Penyempurnaan [Makalah]
- Melawan Pembuatan Teks-ke-Gambar yang Dipersonalisasi dengan Tanda Air Pengaruh [Kertas]
- ECCV
- Jadilah Diri Sendiri: Perhatian Terbatas untuk Pembuatan Teks-ke-Gambar Multi-Subjek [Makalah] [Proyek]
- Kuat dan Fleksibel: Pembuatan Teks-ke-Gambar yang Dipersonalisasi melalui Pembelajaran Penguatan [Kertas] [Kode]
- TIGC: Kustomisasi Gambar Tanpa Penyetelan dengan Panduan Gambar dan Teks [Kertas] [Kode] [Proyek]
- MasterWeaver: Menjinakkan Editabilitas dan Identitas Wajah untuk Pembuatan Teks-ke-Gambar yang Dipersonalisasi [Kertas] [Kode] [Proyek]
- AAAI
- Penyematan Tekstual yang Dipisahkan untuk Pembuatan Gambar yang Disesuaikan [Kertas]
- arXiv
- FlashFace: Personalisasi Gambar Manusia dengan Pelestarian Identitas Ketelitian Tinggi [Kertas] [Kode] [Proyek]
- MoMA: Adaptor LLM Multimodal untuk Pembuatan Gambar yang Dipersonalisasi dengan Cepat [Kertas]
- IDAdapter: Mempelajari Fitur Campuran untuk Personalisasi Model Teks-ke-Gambar Tanpa Penyetelan [Paper]
- CoRe: Pembelajaran Penyematan Teks dengan Pengaturan Konteks untuk Personalisasi Teks-ke-Gambar [Makalah]
- Bayangkan diri Anda: Pembuatan Gambar Personalisasi Tanpa Penyetelan [Kertas] [Proyek]
- Tahun 2023
- CVPR
- Difusi Kustom: Kustomisasi Multi-Konsep Difusi Teks-ke-Gambar [Kertas] [Kode] [Proyek]
- DreamBooth: Penyempurnaan Model Difusi Teks-ke-Gambar untuk Pembuatan Berdasarkan Subjek [Kertas] [Kode] [Proyek]
- ICCV
- ELITE: Mengkodekan Konsep Visual ke dalam Embeddings Tekstual untuk Pembuatan Teks-ke-Gambar yang Disesuaikan [Kertas] [Kode]
- ICLR
- Inversi Tekstual: Sebuah Gambar Bernilai Satu Kata: Personalisasi Pembuatan Teks-ke-Gambar menggunakan Inversi Tekstual [Kertas] [Kode] [Proyek]
- TANDA TANGAN
- Break-A-Scene: Mengekstraksi Banyak Konsep dari Satu Gambar [Kertas] [Kode]
- Penyetelan Domain Berbasis Encoder untuk Personalisasi Cepat Model Teks-ke-Gambar [Kertas] [Proyek]
- LayerDiffusion: Pengeditan Gambar Terkendali Berlapis dengan Model Difusi [Kertas]
- arXiv
- DreamTuner: Gambar Tunggal Cukup untuk Pembuatan Berdasarkan Subjek [Makalah] [Proyek]
- PhotoMaker: Menyesuaikan Foto Manusia Realistis melalui Penyematan ID Bertumpuk [Kertas] [Kode]
- Adaptor IP: Adaptor Prompt Gambar yang Kompatibel dengan Teks untuk Model Difusi Teks-ke-Gambar [Kertas] [Kode] [Proyek]
- FastComposer: Pembuatan Gambar Multi-Subjek Tanpa Penyetelan dengan Perhatian Lokal [Kertas] [Kode]
<Kembali ke Atas>
Pengeditan Gambar dengan Panduan Teks
- Tahun 2024
- CVPR
- InfEdit: Pengeditan Gambar Bebas Inversi dengan Bahasa Alami [Kertas] [Kode] [Proyek]
- Menuju Pemahaman Silang dan Perhatian Diri dalam Difusi Stabil untuk Pengeditan Gambar Berpanduan Teks [Makalah]
- Inferensi Kontrafaktual Penculikan Ganda untuk Pengeditan Gambar Berbasis Teks [Kertas] [Kode]
- Fokus pada Instruksi Anda: Pengeditan Gambar Berbutir Halus dan Multi-instruksi dengan Modulasi Perhatian [Kertas] [Kode]
- Skor Denoising Kontrasif untuk Pengeditan Gambar Difusi Laten dengan Panduan Teks [Makalah]
- DragDiffusion: Memanfaatkan Model Difusi untuk Pengeditan Gambar Berbasis Titik Interaktif [Kertas] [Kode]
- DiffEditor: Meningkatkan Akurasi dan Fleksibilitas pada Pengeditan Gambar Berbasis Difusi [Kertas]
- FreeDrag: Fitur Menyeret untuk Pengeditan Gambar Berbasis Titik yang Andal [Kertas] [Kode]
- Pengeditan Gambar Berbasis Teks melalui Wilayah yang Dapat Dipelajari [Kertas] [Kode] [Proyek] [Video]
- LEDITS++: Pengeditan Gambar Tanpa Batas menggunakan Model Text-to-Image [Kertas] [Kode] [Proyek] [Demo]
- SmartEdit: Menjelajahi Pengeditan Gambar Berbasis Instruksi Kompleks dengan Model Bahasa Besar [Kertas] [Kode] [Proyek]
- Edit Satu untuk Semua: Pengeditan Gambar Batch Interaktif [Kertas] [Kode] [Proyek]
- DiffMorpher: Melepaskan Kemampuan Model Difusi untuk Morphing Gambar [Kertas] [Kode] [Proyek] [Demo]
- TiNO-Edit: Optimasi Timestep dan Noise untuk Pengeditan Gambar Berbasis Difusi yang Kuat [Kertas] [Kode]
- Person in Place: Menghasilkan Peta Panduan Kerangka Asosiatif untuk Pengeditan Gambar Interaksi Manusia-Objek [Makalah] [Proyek] [Kode]
- Pengeditan Gambar Referensi: Pengeditan Gambar Tingkat Objek melalui Ekspresi Referensi [Kertas]
- Augmentasi Cepat untuk Manipulasi Gambar dengan Panduan Teks yang Diawasi Sendiri [Makalah]
- Iblis ada dalam Detail: StyleFeatureEditor untuk Inversi StyleGAN yang Kaya Detail dan Pengeditan Gambar Berkualitas Tinggi [Kertas] [Kode]
- ECCV
- RegionDrag: Pengeditan Gambar Cepat Berbasis Wilayah dengan Model Difusi [Kertas] [Kode] [Proyek] [Demo]
- TurboEdit: Pengeditan gambar instan berbasis teks [Kertas] [Proyek]
- InstructGIE: Menuju Pengeditan Gambar yang Dapat Digeneralisasikan [Kertas]
- StableDrag: Tarikan Stabil untuk Pengeditan Gambar Berbasis Titik [Kertas]
- Inversi Eta: Merancang Fungsi Eta yang Optimal untuk Pengeditan Gambar Nyata Berbasis Difusi [Kertas] [Kode] [Proyek]
- SwapAnything: Mengaktifkan Pertukaran Objek Sewenang-wenang dalam Pengeditan Gambar yang Dipersonalisasi [Kertas] [Kode] [Proyek]
- Guide-and-Rescale: Mekanisme Panduan Mandiri untuk Pengeditan Gambar Nyata Tanpa Penyetelan yang Efektif [Makalah]
- FreeDiff: Pemotongan Frekuensi Progresif untuk Pengeditan Gambar dengan Model Difusi [Kertas] [Kode]
- Trafo Difusi Malas untuk Pengeditan Gambar Interaktif [Kertas] [Proyek]
- ByteEdit: Meningkatkan, Mematuhi, dan Mempercepat Pengeditan Gambar Generatif [Kertas] [Proyek]
- ICLR
- Memandu Pengeditan Gambar Berbasis Instruksi melalui Model Bahasa Besar Multimodal [Kertas] [Kode] [Proyek]
- Berkat Keacakan: SDE Mengalahkan ODE dalam Pengeditan Gambar Berbasis Difusi Umum [Kertas] [Kode] [Proyek]
- Panduan Gerakan: Pengeditan Gambar Berbasis Difusi dengan Penaksir Gerakan yang Dapat Dibedakan [Kertas] [Kode] [Proyek]
- Inversi dan Perakitan Kembali Sadar Objek untuk Pengeditan Gambar [Kertas] [Kode] [Proyek]
- Panduan Peta Kebisingan: Inversi dengan Konteks Spasial untuk Pengeditan Gambar Nyata [Makalah]
- AAAI
- Kontrol Peningkatan Inversi Tanpa Penyetelan untuk Pengeditan Gambar yang Konsisten [Kertas]
- BARET: Pengeditan Gambar Nyata Berbasis Perhatian Seimbang yang Didorong oleh Pembalikan Teks Target [Kertas]
- Mempercepat Pengeditan Teks-ke-Gambar melalui Inferensi Difusi Jarang yang Diaktifkan Cache [Paper]
- Pengeditan Gambar Berbasis Difusi Ketelitian Tinggi [Kertas]
- AdapEdit: Algoritma Pengeditan Adaptif Terpandu Spatio-Temporal untuk Pengeditan Gambar Sensitif Kontinuitas Berbasis Teks [Makalah]
- TexFit: Pengeditan Gambar Mode Berbasis Teks dengan Model Difusi [Kertas]
- arXiv
- Suatu Item Layak Diminta: Pengeditan Gambar Serbaguna dengan Kontrol Terurai [Kertas] [Kode]
- Adaptor Satu Dimensi untuk Mengatur Semuanya: Konsep, Model Difusi, dan Aplikasi Penghapusan [Kertas] [Kode] [Proyek]
- EditWorld: Mensimulasikan Dinamika Dunia untuk Pengeditan Gambar yang Mengikuti Instruksi [Kertas] [Kode] [Proyek]
- ReasonPix2Pix: Kumpulan Data Penalaran Instruksi untuk Pengeditan Gambar Tingkat Lanjut [Kertas]
- FlowEdit: Pengeditan Berbasis Teks Bebas Inversi Menggunakan Model Aliran Terlatih [Kertas] [Kode] [Proyek] [Demo]
- Tahun 2023
- CVPR
- Mengungkap Kemampuan Penguraian dalam Model Difusi Teks-ke-Gambar [Kertas] [Kode]
- SINE: Pengeditan Gambar TUNGGAL dengan Model Difusi Teks-ke-Gambar [Kertas] [Kode]
- Imagic: Pengeditan Gambar Nyata Berbasis Teks dengan Model Difusi [Kertas]
- InstructPix2Pix: Belajar Mengikuti Petunjuk Pengeditan Gambar [Makalah] [Kode] [Kumpulan Data] [Proyek] [Demo]
- Inversi Teks Null untuk Mengedit Gambar Nyata menggunakan Model Difusi Terpandu [Kertas] [Kode]
- ICCV
- MasaCtrl: Kontrol Saling Perhatian Tanpa Penyetelan untuk Sintesis dan Pengeditan Gambar yang Konsisten [Makalah] [Kode] [Proyek] [Demo]
- Melokalkan Variasi Bentuk Tingkat Objek dengan Model Difusi Teks-ke-Gambar [Kertas] [Kode] [Proyek] [Demo]
- ICLR
- SDEdit: Sintesis dan Pengeditan Gambar Terpandu dengan Persamaan Diferensial Stokastik [Makalah] [Kode] [Proyek]
- Tahun 2022
- CVPR
- DiffusionCLIP: Model Difusi Berpanduan Teks untuk Manipulasi Gambar yang Kuat [Kertas] [Kode]
<Kembali ke Atas>
Pembuatan Gambar Teks
- Tahun 2024
- arXiv
- AnyText: Pembuatan dan Pengeditan Teks Visual Multibahasa [Kertas] [Kode] [Proyek]
- CVPR
- SceneTextGen: Sintesis Gambar Teks Adegan Layout-Agnostik dengan Difusi Tingkat Karakter Terintegrasi dan Konsistensi Kontekstual [Makalah]
<Kembali ke Atas>
Kumpulan data
- Microsoft COCO: Objek Umum dalam Konteks [Makalah] [Kumpulan Data]
- Keterangan Konseptual: Kumpulan Data Teks Alt Gambar yang Dibersihkan, Dihipernim, Untuk Pemberian Teks Gambar Otomatis [Kertas] [Kumpulan Data]
- LAION-5B: Kumpulan Data Terbuka Berskala Besar untuk Melatih Model Teks-Gambar Generasi Berikutnya [Kertas] [Kumpulan Data]
- PartiPrompts: Menskalakan Model Autoregresif untuk Pembuatan Teks-ke-Gambar yang Kaya Konten [Makalah] [Kumpulan Data] [Proyek]
<Kembali ke Atas>
Perangkat
Nama | Situs web | Keterangan |
---|
WebUI Difusi Stabil | link | Dibangun berdasarkan Gradio, diterapkan secara lokal untuk menjalankan pos pemeriksaan Difusi Stabil, bobot LoRA, bobot ControlNet, dll. |
Penempaan WebUI Difusi Stabil | link | Dibangun berdasarkan Gradio, diterapkan secara lokal untuk menjalankan pos pemeriksaan Difusi Stabil, bobot LoRA, bobot ControlNet, dll. |
bodoh | link | Dibangun berdasarkan Gradio, offline, open source, dan gratis. Penyesuaian manual tidak diperlukan, dan pengguna hanya perlu fokus pada petunjuk dan gambar. |
UI yang nyaman | link | Disebarkan secara lokal untuk mengaktifkan alur kerja yang disesuaikan dengan Difusi Stabil |
warga sipil | link | Situs web untuk komunitas Difusi Stabil dan pos pemeriksaan LoRA |
<Kembali ke Atas>
Tanya Jawab
- Q: Urutan konferensi daftar makalah ini?
- Daftar makalah ini disusun menurut urutan berikut:
- CVPR
- ICCV
- ECCV
- WACV
- sarafIPS
- ICLR
- ICML
- ACM MM
- TANDA TANGAN
- AAAI
- arXiv
- Yang lain
- T: Apa yang dimaksud dengan
Others
?- Beberapa penelitian berikut (misalnya,
Stable Casacade
) tidak mempublikasikan laporan teknisnya di arXiv. Sebaliknya, mereka cenderung menulis blog di situs resminya. Kategori Others
mengacu pada jenis studi semacam itu.
<Kembali ke Atas>
Referensi
File reference.bib
merangkum referensi bibtex dari makalah inpainting gambar terkini, kumpulan data yang banyak digunakan, dan toolkit. Berdasarkan referensi asli, saya telah melakukan modifikasi berikut agar hasilnya terlihat bagus di naskah LaTeX
:
- Referensi biasanya dikonstruksikan dalam bentuk
author-etal-year-nickname
. Khususnya, referensi kumpulan data dan toolkit secara langsung dikonstruksikan sebagai nickname
, misalnya imagenet
. - Pada setiap referensi, semua nama konferensi/jurnal diubah menjadi singkatan, misal
Computer Vision and Pattern Recognition -> CVPR
. -
url
, doi
, publisher
, organization
, editor
, series
di semua referensi dihapus. -
pages
semua referensi ditambahkan jika ada yang hilang. - Semua nama kertas ada dalam title case. Selain itu, saya telah menambahkan
{}
tambahan untuk memastikan bahwa title case juga berfungsi dengan baik di beberapa template tertentu.
Jika Anda mempunyai kebutuhan format referensi lain, Anda dapat merujuk pada referensi asli makalah dengan mencari namanya di DBLP atau Google Cendekia.
Catatan
Perhatikan bahwa referensi di homepage
dan bagian topic
dapat diulang di reference.bib
. Secara pribadi, saya sarankan menggunakan "Ctrl+F" / "Command+F"
untuk mencari referensi BibTeX
yang Anda inginkan.
<Kembali ke Atas>
Sejarah Bintang
<Kembali ke Atas>