awesome clip papers
1.0.0
该存储库包含与视觉、语言和音频对比预训练相关的最重要论文的全面集合。这些论文按分类组织,并按出版年份和月份排序。
下表包含与 CLIP 直接相关的论文列表,或者以某种方式扩展 CLIP 的论文,例如通过改进训练过程或更改数据过滤过程。此表中的每个条目的特点是对比学习是主要预训练目标,而不是采用多个预训练目标的模型,将对比学习与其他预训练目标掩码语言建模 (MLM) 相结合。
模型 | 年 | 月 | 论文标题 | 小说开发 | Arxiv | 吉图布 | 开源 | 执照 | 型号卡 | OpenCLIP 集成 |
---|---|---|---|---|---|---|---|---|---|---|
夹子 | 2021年 | 2 | 从自然语言监督中学习可迁移的视觉模型 | 简化的对比语言-图像预训练 | ✔️ | 执照 | 型号卡 | ✔️ | ||
对齐 | 2021年 | 2 | 通过噪声文本监督扩大视觉和视觉语言表示学习 | 从字幕扩展到嘈杂的替代文本,以避免昂贵的过滤和后处理 | ✔️ | 型号卡 | ||||
克鲁布 | 2021年 | 10 | CLOOB:带有 InfoLOOB 的 Modern Hopfield Networks 表现优于 CLIP | 避免 InfoNCE 目标饱和 | ✔️ | 执照 | ||||
去CLIP | 2021年 | 10 | 监督无处不在:数据高效的对比语言-图像预训练范式 | 通过监督提高数据效率 | ✔️ | 执照 | ||||
菲利普 | 2021年 | 11 | FILIP:细粒度交互式语言-图像预训练 | 在视觉和文本特征之间添加标记式最大相似性,以实现高效和细粒度的语义对齐 | ✔️ | |||||
德菲利普 | 2022年 | 3 | 对比语言-图像预训练的民主化:数据、模型和监督的 CLIP 基准 | 结合 DeCLIP 和 FILIP | ✔️ | 执照 | ||||
金字塔CLIP | 2022年 | 4 | PyramidCLIP:视觉语言模型预训练的分层特征对齐 | 放宽图像和元数据一一对应的假设 | ||||||
克莱特 | 2022年 | 4 | K-LITE:利用外部知识学习可迁移的视觉模型 | 使用外部知识增强标题文本 | ✔️ | 执照 | ||||
环CLIP | 2022年 | 5 | CyCLIP:循环对比语言-图像预训练 | 形式化和优化图像和文本空间的几何一致性 | ✔️ | 执照 | ||||
翻动 | 2022年 | 12 | 通过掩蔽缩放语言图像预训练 | 在编码之前屏蔽图像可改善 CLIP 的速度与准确性权衡 | ✔️ | 执照 | ||||
开放式剪辑 | 2022年 | 12 | 用于对比语言图像学习的可重复缩放定律 | CLIP 的开源实现 | ✔️ | 执照 | 型号卡 | ✔️ | ||
EVA-夹子 | 2023年 | 3 | EVA-CLIP:改进的大规模 CLIP 培训技术 | 改进表示学习、优化和增强,以实现更快的训练 | ✔️ | 型号卡 | ✔️ | |||
西格利普 | 2023年 | 3 | 语言图像预训练的 Sigmoid 损失 | Sigmoid 损失可以将损失与批量大小分开 | ✔️ | 执照 | ✔️ | |||
CLIPA | 2023年 | 5 | CLIP 训练的逆缩放定律 | 深入了解编码器大小和训练输入序列长度之间的关系可以提高训练效率 | ✔️ | 执照 | ✔️ | |||
元CLIP | 2023年 | 9 | 揭秘 CLIP 数据 | 严格研究揭示 CLIP 的数据管理流程 | ✔️ | 执照 | ✔️ | |||
DFN | 2023年 | 11 | 数据过滤网络 | 在高质量数据上训练的模型可用于过滤用于训练最终 CLIP 模型的大量在线数据 | ✔️ | 执照 | 型号卡 | ✔️ |
通过添加额外的预训练目标来扩展 CLIP 的模型,例如掩码语言建模 (MLM)。
下表中使用的缩写词如下:
此表中的所有模型也使用 CLIP 式对比学习作为预训练目标。
模型 | 年 | 月 | 论文标题 | 预训练技术 | Arxiv | 吉图布 | 开源 | 执照 |
---|---|---|---|---|---|---|---|---|
滑 | 2021年 | 12 | SLIP:自我监督与语言图像预训练的结合 | 国际空间站 | ✔️ | 执照 | ||
弗拉瓦 | 2021年 | 12 | FLAVA:基础语言和视觉对齐模型 | ITM+MMM+MIM+传销 | ✔️ | 执照 | ||
BLIP | 2022年 | 1 | BLIP:引导语言图像预训练以实现统一视觉语言理解和生成 | ITM+LM | ✔️ | 执照 | ||
掩模夹 | 2022年 | 8 | MaskCLIP:掩模自蒸馏推进对比语言图像预训练 | 传销+默沙东 | ||||
维查 | 2022年 | 8 | 通过视觉概念和分层对齐进行高效的视觉语言预训练 | H-ITC+ITM+MMM+MIM+MLM | ✔️ | 执照 | ||
瑞尔LS | 2023年 | 1 | RILS:语言语义空间中的蒙面视觉重建 | MIM | ||||
移动剪辑 | 2023年 | 11 | MobileCLIP:通过多模态强化训练快速图像文本模型 | MMR | ✔️ | 执照 |
本节包含与其他模式(例如音频、视频和 3D 数据)的对比预训练相关的论文集。
使用 CLIP 式对比学习作为音频预训练目标的模型。
模型 | 年 | 月 | 论文标题 | 方式 | Arxiv | 吉图布 | 开源 | 执照 |
---|---|---|---|---|---|---|---|---|
音频剪辑 | 2021年 | 6 | AudioCLIP:将 CLIP 扩展到图像、文本和音频 | 音频+图像+文字 | ✔️ | 执照 | ||
WAV2剪辑 | 2021年 | 10 | WAV2CLIP:从 CLIP 学习稳健的音频表示 | 音频+图像+文字 | ✔️ | 执照 | ||
语音剪辑 | 2022年 | 10 | SpeechCLIP:将语音与预先训练的视觉和语言模型集成 | 语音+图像+文字 | ✔️ | 执照 | ||
拍 | 2023年 | 4 | 具有特征融合和关键字到字幕增强功能的大规模对比语言音频预训练 | 音频+文字 | ✔️ | 执照 | ||
CLVP | 2023年 | 5 | 通过缩放更好的语音合成 | 语音+文字 | ✔️ | 执照 |
将 CLIP 扩展到视频领域的模型。
模型 | 年 | 月 | 论文标题 | Arxiv | 吉图布 | 开源 | 执照 |
---|---|---|---|---|---|---|---|
剪辑4剪辑 | 2021年 | 4 | CLIP4Clip:用于端到端视频剪辑检索的 CLIP 实证研究 | ✔️ | 执照 | ||
视频剪辑 | 2021年 | 9 | VideoCLIP:零样本视频文本理解的对比预训练 | ✔️ | 执照 | ||
X-CLIP | 2022年 | 7 | X-CLIP:用于视频文本检索的端到端多粒度对比学习 | ✔️ | 执照 |
将 CLIP 扩展到 3D 域的模型。
模型 | 年 | 月 | 论文标题 | 方式 | Arxiv | 吉图布 | 开源 | 执照 |
---|---|---|---|---|---|---|---|---|
点剪辑 | 2021年 | 12 | PointCLIP:通过 CLIP 理解点云 | 点云+文字 | ✔️ | |||
CLIP2点 | 2022年 | 10 | CLIP2Point:通过图像深度预训练将 CLIP 转移到点云分类 | 点云+文字 | ✔️ | |||
点CLIPV2 | 2022年 | 11 | PointCLIP V2:提示 CLIP 和 GPT 实现强大的 3D 开放世界学习 | 点云+文字 | ||||
剪辑2 | 2023年 | 3 | CLIP2:来自真实世界点云数据的对比语言-图像-点预训练 | 点云+图像+文字 |
欢迎贡献!提交拉取请求以添加新论文或更新现有论文。请遵循表中现有论文的格式?