awesome text to image studies下载 - awesome text to image studies源代码下载

awesome text to image studies

Ai源码

1.0.0

下载

文本到图像生成研究的集合

此 GitHub 存储库总结了与文本到图像 (T2I) 生成任务相关的论文和资源。

笔记

本文档作为整个 GitHub 存储库的homepage 。论文按照不同的研究方向、发表年份、会议情况进行总结。

topics部分根据不同的属性总结了与 T2I 生成高度相关的论文，例如 T2I 生成的先决条件、使用其他技术的扩散模型（例如 Diffusion Transformer、LLM、Mamba 等）以及其他任务的扩散模型。

如果您对此存储库有任何建议，请随时发起新问题或拉取请求。

该 GitHub 存储库的最新消息列出如下。

[十一月。 19日]我们发布了最新论文《StableV2V: Stablizing Shape Consistency in Video-to-Video Editing》，并开源了相应的代码、模型权重和测试基准DAVIS-Edit 。请随时从链接中查看它们！

点击查看更多信息。

[四月。 26日]更新一个新主题：扩散模型遇见联邦学习。请参阅topics部分了解更多详细信息！
[三月。 28日】 AAAI 2024论文名单官方出炉！ PDF 和 BibTeX 参考文献的官方版本也相应更新。
[三月。 21日] topics部分已更新。本节旨在提供根据扩散模型的其他属性总结的论文列表，例如基于扩散变压器的方法、NLP的扩散模型、与LLM集成的扩散模型等。这些论文的相应参考文献也总结在reference.bib中reference.bib
[三月。 7th] 所有可用的CVPR、ICLR 和 AAAI 2024 论文和参考文献均已更新。
[三月。 1st] 总结了现成的文本到图像生成产品和工具包的网站。

内容

产品
待办事项列表
文件
- 调查论文
- 文本到图像的生成
  - 2024年
  - 2023年
  - 2022年
  - 2021年
  - 2020年
- 有条件的文本到图像生成
  - 2024年
  - 2023年
  - 2022年
- 个性化文本到图像生成
  - 2024年
  - 2023年
- 文本引导图像编辑
  - 2024年
  - 2023年
  - 2022年
- 文本图像生成
  - 2024年
数据集
工具包
问答
参考
明星历史

待办事项列表

会议发表论文
- 更新 NeurIPS 2024 论文
- 更新 ECCV 2024 论文
- 更新 CVPR 2024 论文
  - 更新️论文和参考文献
  - 将 arXiv 参考文献更新为正式版本
- 更新 AAAI 2024 论文
  - 更新️论文和参考文献
  - 将 arXiv 参考文献更新为正式版本
- 更新 ICLR 2024 论文
- 更新 NeurIPS 2023 论文
预印本 arXiv 论文和遗漏论文的定期维护

<返回顶部>

产品

姓名	年	网站	特产
稳定扩散3	2024年	关联	基于扩散变压器的稳定扩散
视频稳定	2024年	关联	高品质高分辨率图像
达尔-E 3	2023年	关联	与 ChatGPT 合作
表意文字	2023年	关联	文字图片
操场	2023年	关联	审美形象
嗨梦科技	2023年	关联	-
短跑	2023年	关联	文本转漫画生成
惠州	2023年	关联	WHEE是一款在线AI生成工具，可应用于T2I生成、I2I生成、SR、修复、外绘、图像变化、虚拟试穿等。
织女星人工智能	2023年	关联	Vega AI是一款在线AI生成工具，可应用于T2I生成、I2I生成、SR、T2V生成、I2V生成等。
艾无界	2022年	关联	中文名称为“无界AI”，提供AIGC资源和在线服务
中途	2022年	关联	强大的闭源生成工具

<返回顶部>

文件

调查论文

文本到图像的生成
- 2024年
  - ACM 计算调查
    - 扩散模型：方法和应用的综合综述 [论文]
- 2023年
  - TPAMI
    - 视觉中的扩散模型：一项调查[论文][代码]
  - arXiv
    - 生成人工智能中的文本到图像扩散模型：一项调查 [论文]
    - 视觉计算扩散模型的最新技术 [论文]
- 2022年
  - arXiv
    - 有效的视觉扩散模型：一项调查[论文]
有条件的文本到图像生成
- 2024年
  - arXiv
    - 使用文本到图像扩散模型的可控生成：调查[论文]
文本引导图像编辑
- 2024年
  - arXiv
    - 基于扩散模型的图像编辑：调查[论文][代码]

<返回顶部>

文本到图像的生成

2024年
- CVPR
  - DistriFusion：高分辨率扩散模型的分布式并行推理 [论文] [代码]
  - InstanceDiffusion：图像生成的实例级控制 [论文] [代码] [项目]
  - ECLIPSE：用于图像生成的资源高效的文本到图像先验 [论文] [代码] [项目] [演示]
  - Instruct-Imagen：使用多模态指令生成图像 [论文]
  - 学习连续 3D 单词以生成文本到图像 [论文] [代码]
  - HanDiffuser：具有逼真手部外观的文本到图像生成 [论文]
  - 用于文本到图像生成的丰富人类反馈 [论文]
  - MarkovGen：用于高效文本到图像生成的结构化预测 [论文]
  - 用于生成文本到图像的自定义助手 [论文]
  - ADI：学习用于操作定制文本到图像生成的解缠标识符 [论文] [项目]
  - UFOGen：通过扩散 GAN 实现大规模文本到图像生成 [论文]
  - 自我发现可解释扩散潜在方向，以实现负责任的文本到图像生成[论文]
  - 定制愿景：通过个性化提示重写增强文本到图像的生成 [论文] [代码]
  - CoDi：条件扩散蒸馏以实现更高保真度和更快的图像生成 [论文] [代码] [项目] [演示]
  - 使用潜在扩散模型和隐式神经解码器进行任意尺度图像生成和上采样[论文]
  - 在基于文本的人类图像生成的扩散模型中有效利用以人为本的先验 [论文]
  - ElasticDiffusion：免训练任意尺寸图像生成 [论文] [代码] [项目] [演示]
  - CosmicMan：人类的文本到图像基础模型 [论文] [代码] [项目]
  - PanFusion：驯服文本到 360° 全景图像生成的稳定扩散 [论文] [代码] [项目]
  - 智能格林：通过潜在扩散模型进行开放式视觉叙事 [论文] [代码] [项目]
  - 关于基于扩散的文本到图像生成的可扩展性[论文]
  - MuLAn：用于可控文本到图像生成的多层注释数据集 [论文] [项目] [数据集]
  - 学习多维人类偏好以生成文本到图像[论文]
  - 文本到图像生成的动态提示优化 [论文]
  - 通过强化学习训练扩散模型以生成多样化图像 [论文]
  - 对抗性文本到连续图像生成 [论文] [项目] [视频]
  - EmoGen：使用文本到图像扩散模型生成情感图像内容 [论文] [代码]
- ECCV
  - 桥接不同语言模型和生成视觉模型以生成文本到图像 [论文] [代码] [项目]
  - 使用文本到图像扩散模型探索短语级基础 [论文] [代码]
  - 正确做法：提高文本到图像模型的空间一致性 [论文] [代码] [项目]
  - 克服印度语言中文本到图像的生成偏差 [论文] [项目]
  - 通过人类反馈反转保护文本到图像的扩散模型 [论文]
  - 现实与幻想的构建：法学硕士辅助提示解释的场景生成 [论文] [代码] [项目] [数据集]
  - 文本到图像扩散模型的可靠且高效的概念擦除[论文][代码]
  - 使用文本到图像扩散模型探索短语级基础 [论文] [代码]
  - StyleTokenizer：通过单个实例定义图像样式以控制扩散模型 [论文] [代码]
  - PEA-Diffusion：非英语文本到图像生成中具有知识蒸馏的参数高效适配器 [论文] [代码]
  - 现象空间中的倾斜阻碍了文本到图像生成的泛化[论文][代码]
  - Parrot：用于文本到图像生成的帕累托最优多奖励强化学习框架 [论文]
  - 桥接不同语言模型和生成视觉模型以生成文本到图像 [论文] [代码] [项目]
  - MobileDiffusion：移动设备上的即时文本到图像生成 [论文]
  - PixArt-Σ：用于 4K 文本到图像生成的扩散变压器的弱到强训练 [论文] [代码] [项目]
  - CogView3：通过中继扩散生成更精细、更快的文本到图像 [论文] [代码]
- ICLR
  - 用于高分辨率图像合成的修补去噪扩散模型 [论文] [代码]
  - 中继扩散：统一跨分辨率的扩散过程以进行图像合成 [论文] [代码]
  - SDXL：改进高分辨率图像合成的潜在扩散模型 [论文] [代码]
  - 组合与征服：基于扩散的 3D 深度感知可组合图像合成 [论文] [代码]
  - PixArt-α：用于真实感文本到图像合成的扩散变压器的快速训练 [论文] [代码] [项目] [演示]
- 信号图形
  - RGB↔X：使用材质和照明感知扩散模型进行图像分解和合成 [论文] [项目]
- AAAI
  - 用于文本到图像合成的语义感知数据增强 [论文]
  - 抽象概念的文本到图像生成 [论文]
- arXiv
  - 用于文本到图像生成的扩散模型的自玩微调 [论文]
  - RPG：掌握文本到图像的扩散：使用多模态 LLM 进行重述、规划和生成 [论文] [代码]
  - Playground v2.5：提高文本到图像生成中的审美质量的三个见解 [论文] [代码]
  - ResAdapter：用于扩散模型的域一致分辨率适配器 [论文] [代码] [项目]
  - InstantID：在几秒内生成零样本身份保留生成 [论文] [代码] [项目] [演示]
  - PIXART-δ：具有潜在一致性模型的快速且可控的图像生成 [论文] [代码]
  - ELLA：为扩散模型配备法学硕士以增强语义对齐 [论文] [代码] [项目]
  - Text2Street：街景的可控文本到图像生成 [论文]
  - LayerDiffuse：使用潜在透明度的透明图像层扩散 [论文] [代码]
  - SD3-Turbo：具有潜在对抗扩散蒸馏的快速高分辨率图像合成[论文]
  - StreamMultiDiffusion：具有基于区域的语义控制的实时交互生成 [论文] [代码]
  - SVGDreamer：使用扩散模型生成文本引导的 SVG [论文] [代码] [项目]
  - PromptCharm：通过多模式提示和细化生成文本到图像 [论文]
  - YOSO：您只需采样一次：通过自合作扩散 GAN 驯服一步文本到图像合成 [论文] [代码]
  - SingDiffusion：解决扩散模型中时间间隔端点的奇点 [论文] [代码]
  - CoMat：将文本到图像扩散模型与图像到文本概念匹配对齐 [论文] [代码] [项目]
  - StoryDiffusion：用于长距离图像和视频生成的一致自注意力 [论文] [代码] [项目] [演示]
  - 用于具有细粒度 ID 和属性控制的预训练扩散模型的面部适配器 [论文] [项目]
  - LinFusion： 1 个 GPU，1 分钟，16K 图像 [论文] [代码] [项目] [演示]
  - OmniGen：统一图像生成 [论文] [代码]
  - CoMPaSS：增强文本到图像扩散模型的空间理解 [论文] [代码]
- 其他的
  - 稳定的级联[博客] [代码]

<返回顶部>

2023年
- CVPR
  - GigaGAN：扩展 GAN 以进行文本到图像的合成 [论文] [复制代码] [项目] [视频]
  - ERNIE-ViLG 2.0：利用知识增强的去噪专家组合改进文本到图像的扩散模型 [论文]
  - 用于文本到图像生成的移位扩散 [论文] [代码]
  - GALIP：用于文本到图像合成的生成对抗性 CLIP [论文] [代码]
  - 专业扩散：即插即用、样本高效的文本到图像扩散模型微调，以学习任何未见过的风格 [论文] [代码]
  - 实现文本到图像生成的可验证和可重复的人类评估[论文]
  - RIATIG：具有自然提示的可靠且难以察觉的对抗性文本到图像生成[论文][代码]
- ICCV
  - DiffFit：通过简单的参数高效微调解锁大型扩散模型的可转移性 [论文] [代码] [演示]
- 神经信息处理系统
  - ImageReward：学习和评估人类对文本到图像生成的偏好 [论文] [代码]
  - RAPHAEL ：通过大量混合扩散路径生成文本到图像 [论文] [项目]
  - 扩散模型中的语言绑定：通过注意图对齐增强属性对应性 [论文] [代码]
  - DenseDiffusion：具有注意力调制的密集文本到图像生成 [论文] [代码]
- ICLR
  - 用于组合文本到图像合成的免训练结构化扩散指南 [论文] [代码]
- ICML
  - StyleGAN-T：释放 GAN 的强大功能，实现快速大规模文本到图像合成 [论文] [代码] [项目] [视频]
  - Muse：通过 Masked Generative Transformers 生成文本到图像 [论文] [复制代码] [项目]
  - UniDiffusers：一个 Transformer 适合大规模多模态扩散中的所有分布 [论文] [代码]
- ACM MM
  - SUR 适配器：使用大型语言模型增强文本到图像预训练扩散模型 [论文] [代码]
  - ControlStyle：使用扩散先验生成文本驱动的风格化图像 [论文]
- 信号图形
  - 参与和激发：文本到图像扩散模型的基于注意的语义指导 [论文] [代码] [项目] [演示]
- arXiv
  - P+：文本到图像生成中的扩展文本调节 [论文]
  - SDXL-Turbo：对抗性扩散蒸馏 [论文] [代码]
  - Wuerstchen：大规模文本到图像扩散模型的高效架构 [论文] [代码]
  - StreamDiffusion：实时交互生成的管道级解决方案 [论文] [项目]
  - ParaDiffusion：使用信息丰富的扩散模型生成段落到图像 [论文] [代码]
- 其他的
  - DALL-E 3：通过更好的字幕改进图像生成 [论文]

<返回顶部>

2022年
- CVPR
  - 稳定扩散：使用潜在扩散模型的高分辨率图像合成 [论文] [代码] [项目]
  - 用于文本到图像合成的矢量量化扩散模型 [论文] [代码]
  - DF-GAN：用于文本到图像合成的简单有效的基线 [论文] [代码]
  - LAFITE：迈向文本到图像生成的无语言训练 [论文] [代码]
  - 基于对象引导联合解码变换器的文本到图像合成 [论文]
  - StyleT2I：走向组合和高保真文本到图像合成 [论文] [代码]
- ECCV
  - Make-A-Scene：利用人类先验进行基于场景的文本到图像生成 [论文] [代码] [演示]
  - 跟踪受控文本到图像的生成 [论文]
  - 使用 Token-Critic 改进蒙版图像生成 [论文]
  - VQGAN-CLIP：使用自然语言生成和操作开放域图像 [论文] [代码]
  - TISE：用于文本到图像合成评估的指标包 [论文] [代码]
  - StoryDALL-E：采用预训练的文本到图像转换器以实现故事的延续 [论文] [代码] [演示]
- 神经信息处理系统
  - CogView2：通过分层转换器更快更好地生成文本到图像 [论文] [代码]
  - Imagen：具有深度语言理解的真实感文本到图像扩散模型 [论文] [转载代码] [项目] [ Imagen 2 ]
- ACM MM
  - Adma-GAN：用于文本到图像生成的属性驱动内存增强 GAN [论文] [代码]
  - 用于文本到图像生成的背景布局生成和对象知识传输 [论文]
  - DSE-GAN：用于文本到图像生成的动态语义进化生成对抗网络 [论文]
  - AtHom：文本到图像合成中同态训练激发的两种不同的注意力 [论文]
- arXiv
  - DALLE-2：使用 CLIP Latents 生成分层文本条件图像 [论文]
  - PITI：预训练就是图像到图像翻译所需的一切 [论文] [代码]

<返回顶部>

2021年
- ICCV
  - DAE-GAN：用于文本到图像合成的动态方面感知 GAN [论文] [代码]
- 神经信息处理系统
  - CogView：通过 Transformer 掌握文本到图像的生成 [论文] [代码] [演示]
  - UFC-BERT：统一条件图像合成的多模态控制 [论文]
- ICML
  - DALLE-1：零样本文本到图像生成 [论文] [复制代码]
- ACM MM
  - 用于文本到图像合成的循环一致逆 GAN [论文]
  - R-GAN：通过生成对抗网络探索类人方式合理的文本到图像合成 [论文]

<返回顶部>

2020年
- ACM MM
  - 通过美学布局进行文本到图像的合成 [论文]

<返回顶部>

有条件的文本到图像生成

2024年
- CVPR
  - PLACE：用于语义图像合成的自适应布局-语义融合 [论文]
  - 一次性结构感知风格化图像合成 [论文]
  - 具有注意力重新聚焦的基础文本到图像合成 [论文] [代码] [项目] [演示]
  - 用于姿势引导人体图像合成的从粗到细的潜在扩散 [论文] [代码]
  - DetDiffusion：协同生成和感知模型以增强数据生成和感知 [论文]
  - CAN：用于受控图像生成的条件感知神经网络 [论文]
  - SceneDiffusion：使用分层场景扩散移动任何物体 [论文]
  - Zero-Painter：用于文本到图像合成的免培训布局控制 [论文] [代码]
  - MIGC：用于文本到图像合成的多实例生成控制器 [论文] [代码] [项目]
  - FreeControl：任何条件下任何文本到图像扩散模型的免训练空间控制 [论文] [代码] [项目]
- ECCV
  - PreciseControl：通过细粒度属性控制增强文本到图像的扩散模型 [论文] [代码] [项目]
  - AnyControl：通过文本到图像生成的多功能控制来创建您的艺术作品 [论文] [代码]
- ICLR
  - 使用渐进条件扩散模型推进姿势引导图像合成 [论文] [代码]
- WACV
  - 具有交叉注意力指导的免训练布局控制 [论文] [代码] [项目] [演示]
- AAAI
  - SSMG：用于自由形式布局到图像生成的空间语义图引导扩散模型 [论文]
  - 通过扩散模型的注意力图控制进行组合文本到图像的合成 [论文] [代码]
- arXiv
  - DEADiff：一种具有解缠结表示的高效风格化扩散模型 [论文]
  - InstantStyle：文本到图像生成中风格保留的免费午餐 [论文] [代码] [项目]
  - ControlNet++：通过有效的一致性反馈改进条件控制 [论文] [项目]
  - Hunyuan-DiT：具有细粒度中文理解的强大多分辨率扩散变压器 [论文] [代码] [项目]
  - DialogGen：用于多轮文本到图像生成的多模态交互式对话系统 [论文] [代码] [项目]
  - ControlNeXt：强大而高效的图像和视频生成控制 [论文] [代码] [项目]
  - UniPortrait：用于保护身份的单人和多人图像个性化的统一框架 [论文] [代码] [项目] [演示]
  - OmniControl：扩散变压器的最小通用控制 [论文] [代码] [演示]
  - UnZipLoRA：从单个图像中分离内容和风格 [论文] [项目]
  - CtrLoRA：用于可控图像生成的可扩展且高效的框架 [论文] [代码]
  - 通过硬绑定和软细化生成区域感知文本到图像 [论文] [代码]

<返回顶部>

2023年
- CVPR
  - GLIGEN：开放集接地文本到图像生成 [论文] [代码] [项目] [演示] [视频]
  - 使用残差量化的自回归图像生成 [论文] [代码]
  - SpaText：用于可控图像生成的空间文本表示 [论文] [项目] [视频]
  - 使用语义空间感知 GAN 生成文本到图像 [论文]
  - ReCo：区域控制的文本到图像生成 [论文] [代码]
  - LayoutDiffusion：用于布局到图像生成的可控扩散模型 [论文] [代码]
- ICCV
  - ControlNet：向文本到图像扩散模型添加条件控制 [论文] [代码]
  - SceneGenie：用于图像合成的场景图引导扩散模型 [论文] [代码]
  - ZestGuide：文本到图像扩散模型的零样本空间布局调节 [论文]
- ICML
  - Composer：具有可组合条件的创意可控图像合成 [论文] [代码] [项目]
  - MultiDiffusion：融合扩散路径以生成受控图像 [论文] [代码] [视频] [项目] [演示]
- 信号图形
  - 草图引导的文本到图像扩散模型 [论文] [复制代码] [项目]
- 神经信息处理系统
  - Uni-ControlNet：文本到图像扩散模型的一体化控制 [论文] [代码] [项目]
  - 迅速扩散：为扩散模型解锁情境学习 [论文] [代码] [项目]
- WACV
  - 更多免费控制！具有语义扩散指导的图像合成 [论文]
- ACM MM
  - LayoutLLM-T2I：从 LLM 获取布局指导以生成文本到图像 [论文]
- arXiv
  - T2I-Adapter：学习适配器为文本到图像扩散模型挖掘更多可控能力 [论文] [代码] [演示]
  - BLIP-Diffusion：用于可控文本到图像生成和编辑的预训练主题表示 [论文] [代码]
  - 用于可控图像合成的后期约束扩散指导 [论文] [代码]
2022年
- ICLR
  - SDEdit：使用随机微分方程引导图像合成和编辑 [论文] [代码] [项目]

<返回顶部>

个性化文本到图像生成

2024年
- CVPR
  - 用于个性化文本到图像生成的交叉初始化 [论文]
  - 当 StyleGAN 遇到稳定扩散：用于个性化图像生成的 W+ 适配器 [论文] [代码] [项目]
  - 通过共享注意力生成风格对齐图像 [论文] [代码] [项目]
  - InstantBooth：无需测试时微调的个性化文本到图像生成 [论文] [项目]
  - 高保真度以人为中心的主题到图像合成[论文]
  - RealCustom：缩小真实文本字的范围，实现实时开放域文本到图像的定制 [论文] [项目]
  - DisenDiff：用于解开文本到图像个性化的注意力校准 [论文] [代码]
  - FreeCustom：用于多概念合成的免调整定制图像生成 [论文] [代码] [项目]
  - 用于概念驱动的文本到图像生成的个性化残差 [论文]
  - 通过与主体无关的指导改进主体驱动的图像合成 [论文]
  - JeDi：用于免微调个性化文本到图像生成的联合图像扩散模型 [论文]
  - 使用影响水印对抗个性化文本到图像的生成 [论文]
- ECCV
  - 做你自己：多主题文本到图像生成的有限注意力 [论文] [项目]
  - 强大而灵活：通过强化学习生成个性化文本到图像[论文] [代码]
  - TIGC：具有图像和文本指导的免调整图像定制 [论文] [代码] [项目]
  - MasterWeaver：驯服可编辑性和面部识别以实现个性化文本到图像的生成 [论文] [代码] [项目]
- AAAI
  - 用于定制图像生成的解耦文本嵌入 [论文]
- arXiv
  - FlashFace：具有高保真身份保护的人类图像个性化 [论文] [代码] [项目]
  - MoMA：用于快速个性化图像生成的多模态 LLM 适配器 [论文]
  - IDAdapter：学习混合特征以实现文本到图像模型的免调优个性化 [论文]
  - CoRe：用于文本到图像个性化的上下文正则化文本嵌入学习 [论文]
  - 想象一下你自己：免调整个性化图像生成 [论文] [项目]
2023年
- CVPR
  - 自定义扩散：文本到图像扩散的多概念定制 [论文] [代码] [项目]
  - DreamBooth：微调文本到图像扩散模型以实现主题驱动的生成 [论文] [代码] [项目]
- ICCV
  - ELITE：将视觉概念编码为文本嵌入，以生成定制的文本到图像 [论文] [代码]
- ICLR
  - 文本反转：一张图像值得一个字：使用文本反转个性化文本到图像的生成 [论文] [代码] [项目]
- 信号图形
  - Break-A-Scene：从单个图像中提取多个概念 [论文] [代码]
  - 基于编码器的域调整，用于文本到图像模型的快速个性化 [论文] [项目]
  - LayerDiffusion：使用扩散模型进行分层控制图像编辑 [论文]
- arXiv
  - DreamTuner：单张图像足以进行主题驱动生成 [论文] [项目]
  - PhotoMaker：通过堆叠 ID 嵌入定制逼真的人物照片 [论文] [代码]
  - IP-Adapter：用于文本到图像扩散模型的文本兼容图像提示适配器 [论文] [代码] [项目]
  - FastComposer：具有局部注意力的免调整多主体图像生成 [论文] [代码]

<返回顶部>

文本引导图像编辑

2024年
- CVPR
  - InfEdit：使用自然语言进行无反演图像编辑 [论文] [代码] [项目]
  - 理解文本引导图像编辑稳定扩散中的交叉和自注意力 [论文]
  - 基于文本的图像编辑的双重溯因反事实推理 [论文] [代码]
  - 专注于您的指令：通过注意力调制进行细粒度和多指令图像编辑 [论文] [代码]
  - 文本引导潜在扩散图像编辑的对比去噪评分 [论文]
  - DragDiffusion：利用扩散模型进行交互式基于点的图像编辑 [论文] [代码]
  - DiffEditor：提高基于扩散的图像编辑的准确性和灵活性 [论文]
  - FreeDrag：用于可靠的基于点的图像编辑的功能拖动 [论文] [代码]
  - 通过可学习区域进行文本驱动的图像编辑 [论文] [代码] [项目] [视频]
  - LEDITS++：使用文本到图像模型进行无限图像编辑 [论文] [代码] [项目] [演示]
  - SmartEdit：使用大型语言模型探索复杂的基于指令的图像编辑 [论文] [代码] [项目]
  - 编辑一应俱全：交互式批量图像编辑 [论文] [代码] [项目]
  - DiffMorpher：释放图像变形扩散模型的能力 [论文] [代码] [项目] [演示]
  - TiNO-Edit：基于鲁棒扩散的图像编辑的时间步长和噪声优化 [论文] [代码]
  - 就地人员：生成用于人与物体交互图像编辑的关联骨架引导图 [论文] [项目] [代码]
  - 引用图像编辑：通过引用表达式进行对象级图像编辑 [论文]
  - 自监督文本引导图像操作的快速增强 [论文]
  - 魔鬼在于细节：用于细节丰富的 StyleGAN 反演和高质量图像编辑的 StyleFeatureEditor [论文] [代码]
- ECCV
  - RegionDrag：使用扩散模型进行基于区域的快速图像编辑 [论文] [代码] [项目] [演示]
  - TurboEdit：基于文本的即时图像编辑 [论文] [项目]
  - InstructGIE：走向通用图像编辑 [论文]
  - StableDrag：基于点的图像编辑的稳定拖动 [论文]
  - Eta 反演：为基于扩散的真实图像编辑设计最佳 Eta 函数 [论文] [代码] [项目]
  - SwapAnything：在个性化图像编辑中启用任意对象交换 [论文] [代码] [项目]
  - Guide-and-Rescale：用于有效免调整真实图像编辑的自引导机制 [论文]
  - FreeDiff：使用扩散模型进行图像编辑的渐进频率截断 [论文] [代码]
  - 用于交互式图像编辑的惰性扩散变压器 [论文] [项目]
  - ByteEdit：增强、遵守并加速生成图像编辑 [论文] [项目]
- ICLR
  - 通过多模态大语言模型指导基于指令的图像编辑 [论文] [代码] [项目]
  - 随机性的祝福：SDE 在一般基于扩散的图像编辑中击败 ODE [论文] [代码] [项目]
  - 运动引导：使用可微运动估计器进行基于扩散的图像编辑 [论文] [代码] [项目]
  - 用于图像编辑的对象感知反转和重组 [论文] [代码] [项目]
  - 噪声图指导：使用空间上下文进行反演以进行真实图像编辑[论文]
- AAAI
  - 用于一致图像编辑的免调整反转增强控制 [论文]
  - BARET：目标文本反转驱动的基于平衡注意力的真实图像编辑 [论文]
  - 通过启用缓存的稀疏扩散推理加速文本到图像编辑 [论文]
  - 基于扩散的高保真图像编辑 [论文]
  - AdapEdit：用于基于文本的连续性敏感图像编辑的时空引导自适应编辑算法 [论文]
  - TexFit：使用扩散模型进行文本驱动的时尚图像编辑 [论文]
- arXiv
  - 一项值得提示的项目：具有解开控制的多功能图像编辑 [论文] [代码]
  - 统治一切的一维适配器：概念、扩散模型和擦除应用程序 [论文] [代码] [项目]
  - EditWorld：模拟世界动力学以进行指令跟踪图像编辑 [论文] [代码] [项目]
  - ReasonPix2Pix：用于高级图像编辑的指令推理数据集 [论文]
  - FlowEdit：使用预先训练的流模型进行无反演的基于文本的编辑 [论文] [代码] [项目] [演示]
2023年
- CVPR
  - 揭示文本到图像扩散模型中的解缠结能力 [论文] [代码]
  - 正弦：使用文本到图像扩散模型进行单图像编辑 [论文] [代码]
  - Imagic：使用扩散模型进行基于文本的真实图像编辑 [论文]
  - InstructPix2Pix：学习遵循图像编辑说明 [论文] [代码] [数据集] [项目] [演示]
  - 使用引导扩散模型编辑真实图像的空文本反演[论文] [代码]
- ICCV
  - MasaCtrl：无需调整的相互自注意力控制，实现一致的图像合成和编辑 [论文] [代码] [项目] [演示]
  - 使用文本到图像扩散模型本地化对象级形状变化 [论文] [代码] [项目] [演示]
- ICLR
  - SDEdit：使用随机微分方程引导图像合成和编辑 [论文] [代码] [项目]
2022年
- CVPR
  - DiffusionCLIP：用于鲁棒图像处理的文本引导扩散模型 [论文] [代码]

<返回顶部>

文本图像生成

2024年
- arXiv
  - AnyText：多语言可视文本生成和编辑 [论文] [代码] [项目]
- CVPR
  - SceneTextGen：与布局无关的场景文本图像合成，具有集成的字符级扩散和上下文一致性 [论文]

<返回顶部>

数据集

Microsoft COCO：上下文中的常见对象 [论文] [数据集]
概念字幕：用于自动图像字幕的经过清理的、上位词的图像替代文本数据集 [论文] [数据集]
LAION-5B：用于训练下一代图像文本模型的开放大型数据集 [论文] [数据集]
PartiPrompts：缩放自回归模型以生成内容丰富的文本到图像 [论文] [数据集] [项目]

<返回顶部>

工具包

姓名	网站	描述
稳定的扩散WebUI	关联	基于Gradio构建，本地部署以运行Stable Diffusion检查点、LoRA权重、ControlNet权重等。
稳定扩散 WebUI-forge	关联	基于Gradio构建，本地部署以运行Stable Diffusion检查点、LoRA权重、ControlNet权重等。
福库斯	关联	基于Gradio构建，离线、开源、免费。无需手动调整，用户只需关注提示和图像即可。
舒适用户界面	关联	本地部署以通过稳定扩散实现定制工作流程
奇维泰	关联	社区稳定扩散和 LoRA 检查点的网站

<返回顶部>

问答

Q：本次论文列表的会议顺序？
- 本论文列表按照以下顺序组织：
  - CVPR
  - ICCV
  - ECCV
  - WACV
  - 神经信息处理系统
  - ICLR
  - ICML
  - ACM MM
  - 信号图形
  - AAAI
  - arXiv
  - 其他的
问： Others指的是什么？
- 以下一些研究（例如， Stable Casacade ）并未在 arXiv 上发布其技术报告。相反，他们倾向于在自己的官方网站上写博客。 Others类别指的是此类研究。

<返回顶部>

参考

reference.bib文件总结了最新图像修复论文、广泛使用的数据集和工具包的 bibtex 参考文献。基于原始参考文献，我进行了以下修改，以使它们的结果在LaTeX手稿中看起来不错：

参考文献通常以author-etal-year-nickname的形式构建。特别是，数据集和工具包的引用直接构建为nickname ，例如imagenet 。
在每个参考文献中，所有会议/期刊的名称都转换为缩写，例如Computer Vision and Pattern Recognition -> CVPR 。
所有参考文献中的url 、 doi 、 publisher 、 organization 、 editor 、 series均被删除。
如果缺少所有参考文献的pages ，则会添加它们。
所有论文名称均采用标题大写形式。此外，我还添加了一个额外的{}以确保标题大小写在某些特定模板中也能正常工作。