awesome clip papers
1.0.0
該儲存庫包含與視覺、語言和音訊對比預訓練相關的最重要論文的全面集合。這些論文按分類組織,並按出版年份和月份排序。
下表包含與 CLIP 直接相關的論文列表,或以某種方式擴展 CLIP 的論文,例如透過改進訓練過程或更改資料過濾過程。此表中的每個條目的特點是對比學習是主要預訓練目標,而不是採用多個預訓練目標的模型,將對比學習與其他預訓練目標掩碼語言建模 (MLM) 結合。
模型 | 年 | 月 | 論文標題 | 小說開發 | Arxiv | 吉圖布 | 開源 | 執照 | 型號卡 | OpenCLIP 集成 |
---|---|---|---|---|---|---|---|---|---|---|
夾子 | 2021年 | 2 | 從自然語言督導中學習可遷移的視覺模型 | 簡化的對比語言-影像預訓練 | ✔️ | 執照 | 型號卡 | ✔️ | ||
對齊 | 2021年 | 2 | 透過噪音文字監督擴大視覺和視覺語言表示學習 | 從字幕擴展到嘈雜的替代文本,以避免昂貴的過濾和後處理 | ✔️ | 型號卡 | ||||
克魯布 | 2021年 | 10 | CLOOB:帶有 InfoLOOB 的 Modern Hopfield Networks 表現優於 CLIP | 避免 InfoNCE 目標飽和 | ✔️ | 執照 | ||||
去CLIP | 2021年 | 10 | 監督無所不在:資料高效的對比語言-影像預訓練範式 | 透過監督提高數據效率 | ✔️ | 執照 | ||||
菲利普 | 2021年 | 11 | FILIP:細粒度互動式語言-影像預訓練 | 在視覺和文字特徵之間添加標記式最大相似性,以實現高效和細粒度的語義對齊 | ✔️ | |||||
德菲利普 | 2022年 | 3 | 對比語言-圖像預訓練的民主化:資料、模型和監督的 CLIP 基準 | 結合 DeCLIP 和 FILIP | ✔️ | 執照 | ||||
金字塔CLIP | 2022年 | 4 | PyramidCLIP:視覺語言模型預訓練的分層特徵對齊 | 放寬影像和元資料一一對應的假設 | ||||||
克萊特 | 2022年 | 4 | K-LITE:利用外在知識學習可遷移的視覺模型 | 使用外部知識增強標題文本 | ✔️ | 執照 | ||||
環CLIP | 2022年 | 5 | CyCLIP:循環對比語言-影像預訓練 | 形式化和優化圖像和文字空間的幾何一致性 | ✔️ | 執照 | ||||
翻動 | 2022年 | 12 | 透過掩蔽縮放語言圖像預訓練 | 在編碼之前屏蔽影像可改善 CLIP 的速度與準確性權衡 | ✔️ | 執照 | ||||
開放式剪輯 | 2022年 | 12 | 用於對比語言影像學習的可重複縮放定律 | CLIP 的開源實現 | ✔️ | 執照 | 型號卡 | ✔️ | ||
EVA-夾子 | 2023年 | 3 | EVA-CLIP:改良的大規模 CLIP 訓練技術 | 改進表示學習、最佳化和增強,以實現更快的訓練 | ✔️ | 型號卡 | ✔️ | |||
西格利普 | 2023年 | 3 | 語言影像預訓練的 Sigmoid 損失 | Sigmoid 損失可以將損失與批次大小分開 | ✔️ | 執照 | ✔️ | |||
CLIPA | 2023年 | 5 | CLIP 訓練的逆縮放定律 | 深入了解編碼器大小和訓練輸入序列長度之間的關係可以提高訓練效率 | ✔️ | 執照 | ✔️ | |||
元CLIP | 2023年 | 9 | 揭秘 CLIP 數據 | 嚴格研究揭示 CLIP 的資料管理流程 | ✔️ | 執照 | ✔️ | |||
DFN | 2023年 | 11 | 資料過濾網絡 | 在高品質資料上訓練的模型可用於過濾用於訓練最終 CLIP 模型的大量線上數據 | ✔️ | 執照 | 型號卡 | ✔️ |
透過增加額外的預訓練目標來擴展 CLIP 的模型,例如掩碼語言建模 (MLM)。
下表所使用的縮寫如下:
此表中的所有模型也使用 CLIP 式對比學習作為預訓練目標。
模型 | 年 | 月 | 論文標題 | 預訓練技術 | Arxiv | 吉圖布 | 開源 | 執照 |
---|---|---|---|---|---|---|---|---|
滑 | 2021年 | 12 | SLIP:自我監督與語言圖像預訓練的結合 | 國際太空站 | ✔️ | 執照 | ||
弗拉瓦 | 2021年 | 12 | FLAVA:基礎語言與視覺對齊模型 | ITM+MMM+MIM+傳銷 | ✔️ | 執照 | ||
BLIP | 2022年 | 1 | BLIP:引導語言圖像預先訓練以實現統一視覺語言理解和生成 | ITM+LM | ✔️ | 執照 | ||
光罩夾 | 2022年 | 8 | MaskCLIP:掩模自蒸餾推進對比語言影像預訓練 | 傳銷+默沙東 | ||||
維查 | 2022年 | 8 | 透過視覺概念和分層對齊進行高效的視覺語言預訓練 | H-ITC+ITM+MMM+MIM+MLM | ✔️ | 執照 | ||
瑞爾LS | 2023年 | 1 | RILS:語言語意空間中的蒙面視覺重建 | MIM | ||||
移動剪輯 | 2023年 | 11 | MobileCLIP:透過多模態強化訓練快速影像文字模型 | MMR | ✔️ | 執照 |
本節包含與其他模式(例如音訊、視訊和 3D 資料)的對比預訓練相關的論文集。
使用 CLIP 式對比學習作為音訊預訓練目標的模型。
模型 | 年 | 月 | 論文標題 | 方式 | Arxiv | 吉圖布 | 開源 | 執照 |
---|---|---|---|---|---|---|---|---|
音訊剪輯 | 2021年 | 6 | AudioCLIP:將 CLIP 擴展到圖像、文字和音頻 | 音訊+圖像+文字 | ✔️ | 執照 | ||
WAV2剪輯 | 2021年 | 10 | WAV2CLIP:從 CLIP 學習穩健的音訊表示 | 音訊+圖像+文字 | ✔️ | 執照 | ||
語音剪輯 | 2022年 | 10 | SpeechCLIP:將語音與預先訓練的視覺和語言模型集成 | 語音+圖像+文字 | ✔️ | 執照 | ||
拍 | 2023年 | 4 | 具有特徵融合和關鍵字到字幕增強功能的大規模對比語言音訊預訓練 | 音訊+文字 | ✔️ | 執照 | ||
CLVP | 2023年 | 5 | 透過縮放更好的語音合成 | 語音+文字 | ✔️ | 執照 |
將 CLIP 擴展到視訊領域的模型。
模型 | 年 | 月 | 論文標題 | Arxiv | 吉圖布 | 開源 | 執照 |
---|---|---|---|---|---|---|---|
剪輯4剪輯 | 2021年 | 4 | CLIP4Clip:用於端對端視訊剪輯檢索的 CLIP 實證研究 | ✔️ | 執照 | ||
影片剪輯 | 2021年 | 9 | VideoCLIP:零樣本視訊文字理解的對比預訓練 | ✔️ | 執照 | ||
X-CLIP | 2022年 | 7 | X-CLIP:用於視訊文字檢索的端對端多粒度對比學習 | ✔️ | 執照 |
將 CLIP 擴展到 3D 域的模型。
模型 | 年 | 月 | 論文標題 | 方式 | Arxiv | 吉圖布 | 開源 | 執照 |
---|---|---|---|---|---|---|---|---|
點剪輯 | 2021年 | 12 | PointCLIP:透過 CLIP 理解點雲 | 點雲+文字 | ✔️ | |||
CLIP2點 | 2022年 | 10 | CLIP2Point:透過影像深度預先訓練將 CLIP 轉移到點雲分類 | 點雲+文字 | ✔️ | |||
點CLIPV2 | 2022年 | 11 | PointCLIP V2:提示 CLIP 和 GPT 實現強大的 3D 開放世界學習 | 點雲+文字 | ||||
剪輯2 | 2023年 | 3 | CLIP2:來自真實世界點雲資料的對比語言-影像-點預訓練 | 點雲+圖像+文字 |
歡迎貢獻!提交拉取請求以新增新論文或更新現有論文。請遵循表中現有論文的格式?