awesome clip papers
1.0.0
このリポジトリには、視覚、言語、および聴覚の対照的事前トレーニングに関連する最も重要な論文の包括的なコレクションが含まれています。論文はカテゴリー別に整理され、発行年と月ごとに分類されています。
次の表には、CLIP に直接関連する論文、またはトレーニング プロセスの改善やデータ フィルタリング プロセスの変更など、何らかの方法で CLIP を拡張する論文のリストが含まれています。この表のすべてのエントリは、複数の事前トレーニング目標を使用するモデルとは対照的に、主要な事前トレーニング目標である対照学習によって区別され、対照学習と他の事前トレーニング目標のマスク言語モデリング (MLM) を組み合わせています。
モデル | 年 | 月 | 論文のタイトル | 斬新な展開 | アルクシヴ | ギットハブ | オープンソース | ライセンス | モデルカード | OpenCLIPの統合 |
---|---|---|---|---|---|---|---|---|---|---|
クリップ | 2021年 | 2 | 自然言語監視から転送可能な視覚モデルを学習する | 簡略化された対照的な言語と画像の事前トレーニング | ✔️ | ライセンス | モデルカード | ✔️ | ||
整列 | 2021年 | 2 | ノイズの多いテキスト監視による視覚および視覚言語表現学習のスケールアップ | キャプションからノイズの多い代替テキストまで拡張して、コストのかかるフィルタリングや後処理を回避します | ✔️ | モデルカード | ||||
クローブ | 2021年 | 10 | CLOOB: InfoLOOB を使用した最新のホップフィールド ネットワークが CLIP を上回るパフォーマンスを発揮 | InfoNCE の目標の飽和を回避する | ✔️ | ライセンス | ||||
デクリップ | 2021年 | 10 | 監視はどこにでも存在します: データ効率の高い対照的な言語と画像の事前トレーニング パラダイム | 監視によるデータ効率化 | ✔️ | ライセンス | ||||
フィリップ | 2021年 | 11 | FILIP: きめの細かいインタラクティブな言語と画像の事前トレーニング | 視覚的特徴とテキスト的特徴の間にトークンごとの最大の類似性を追加して、効率的かつきめ細かいセマンティック調整を実現します | ✔️ | |||||
デフィリップ | 2022年 | 3 | 対照的な言語と画像の事前トレーニングの民主化: データ、モデル、監視の CLIP ベンチマーク | DeCLIPとFILIPを組み合わせたもの | ✔️ | ライセンス | ||||
ピラミッドクリップ | 2022年 | 4 | PyramidCLIP: ビジョン言語モデルの事前トレーニングのための階層的特徴アライメント | 画像とメタデータが 1 対 1 に対応しているという仮定を緩める | ||||||
クライト | 2022年 | 4 | K-LITE: 外部知識を利用した伝達可能なビジュアルモデルの学習 | キャプションテキストを外部の知識で補強する | ✔️ | ライセンス | ||||
CyCLIP | 2022年 | 5 | CyCLIP: 循環対照言語イメージの事前トレーニング | 画像とテキスト空間の幾何学的一貫性を形式化して最適化する | ✔️ | ライセンス | ||||
フリップ | 2022年 | 12 | スケーリング言語 - マスキングによる画像の事前トレーニング | エンコード前のイメージのマスキングにより、CLIP の速度と精度のトレードオフが向上します | ✔️ | ライセンス | ||||
オープンクリップ | 2022年 | 12 | 対照的な言語イメージ学習のための再現可能なスケーリング則 | CLIP のオープンソース実装 | ✔️ | ライセンス | モデルカード | ✔️ | ||
エヴァクリップ | 2023年 | 3 | EVA-CLIP: 大規模な CLIP 向けの改善されたトレーニング手法 | トレーニングを高速化するための表現学習、最適化、拡張の改善 | ✔️ | モデルカード | ✔️ | |||
SigLIP | 2023年 | 3 | 言語イメージの事前トレーニングのためのシグモイド損失 | シグモイド損失により、バッチ サイズから損失を解消できる | ✔️ | ライセンス | ✔️ | |||
クリパ | 2023年 | 5 | CLIP トレーニングの逆スケーリング則 | エンコーダのサイズとトレーニング入力シーケンスの長さの関係を洞察することで、より効率的なトレーニングが可能になります | ✔️ | ライセンス | ✔️ | |||
メタクリップ | 2023年 | 9 | CLIP データの謎を解く | CLIPのデータキュレーションプロセスを明らかにするための厳密な調査 | ✔️ | ライセンス | ✔️ | |||
DFN | 2023年 | 11 | データフィルタリングネットワーク | 高品質のデータでトレーニングされたモデルを使用して、最終的な CLIP モデルのトレーニングに使用される大量のオンライン データをフィルタリングできます。 | ✔️ | ライセンス | モデルカード | ✔️ |
マスク言語モデリング (MLM) などの追加の事前トレーニング目標を追加することで CLIP を拡張するモデル。
以下の表で使用されている頭字語は次のとおりです。
この表のすべてのモデルは、事前トレーニングの目的として CLIP スタイルの対照学習も使用します。
モデル | 年 | 月 | 論文のタイトル | 事前トレーニングテクニック | アルクシヴ | ギットハブ | オープンソース | ライセンス |
---|---|---|---|---|---|---|---|---|
スリップ | 2021年 | 12 | SLIP: 自己監視と言語イメージの事前トレーニングの出会い | ISS | ✔️ | ライセンス | ||
フラバ | 2021年 | 12 | FLAVA: 基礎的な言語と視覚の調整モデル | ITM+MMM+MIM+MLM | ✔️ | ライセンス | ||
ブリップ | 2022年 | 1 | BLIP: 統合ビジョン言語の理解と生成のための言語イメージ事前トレーニングのブートストラッピング | ITM+LM | ✔️ | ライセンス | ||
マスククリップ | 2022年 | 8 | MaskCLIP: マスクされた自己蒸留が対照的な言語と画像の事前トレーニングを進歩させる | MLM+MSD | ||||
ViCHA | 2022年 | 8 | 視覚的概念と階層的調整による効率的な視覚言語の事前トレーニング | H-ITC+ITM+MMM+MIM+MLM | ✔️ | ライセンス | ||
リルズ | 2023年 | 1 | RILS: 言語意味空間におけるマスクされた視覚的再構成 | MIM | ||||
モバイルクリップ | 2023年 | 11 | MobileCLIP: マルチモーダル強化トレーニングによる高速画像テキスト モデル | MMR | ✔️ | ライセンス |
このセクションには、オーディオ、ビデオ、3D データなどの他のモダリティの対照的事前トレーニングに関連する論文のコレクションが含まれています。
オーディオの事前トレーニング目標として CLIP スタイルの対照学習を使用するモデル。
モデル | 年 | 月 | 論文のタイトル | モダリティ | アルクシヴ | ギットハブ | オープンソース | ライセンス |
---|---|---|---|---|---|---|---|---|
オーディオクリップ | 2021年 | 6 | AudioCLIP: CLIPを画像、テキスト、オーディオに拡張する | 音声+画像+テキスト | ✔️ | ライセンス | ||
WAV2CLIP | 2021年 | 10 | WAV2CLIP: クリップから堅牢なオーディオ表現を学習する | 音声+画像+テキスト | ✔️ | ライセンス | ||
スピーチクリップ | 2022年 | 10 | SpeechCLIP: 音声と事前トレーニングされた視覚および言語モデルの統合 | 音声+画像+テキスト | ✔️ | ライセンス | ||
クラップ | 2023年 | 4 | 特徴融合とキーワードからキャプションへの拡張による大規模な対照言語音声事前トレーニング | 音声+テキスト | ✔️ | ライセンス | ||
CLVP | 2023年 | 5 | スケーリングによる音声合成の向上 | 音声+テキスト | ✔️ | ライセンス |
CLIPをビデオ領域まで拡張したモデル。
モデル | 年 | 月 | 論文のタイトル | アルクシヴ | ギットハブ | オープンソース | ライセンス |
---|---|---|---|---|---|---|---|
CLIP4クリップ | 2021年 | 4 | CLIP4Clip: エンドツーエンドのビデオクリップ取得のための CLIP の実証的研究 | ✔️ | ライセンス | ||
ビデオクリップ | 2021年 | 9 | VideoCLIP: ゼロショットビデオテキスト理解のための対照的な事前トレーニング | ✔️ | ライセンス | ||
Xクリップ | 2022年 | 7 | X-CLIP: ビデオテキスト検索のためのエンドツーエンドのマルチグレイン対照学習 | ✔️ | ライセンス |
CLIPを3D領域に拡張したモデル。
モデル | 年 | 月 | 論文のタイトル | モダリティ | アルクシヴ | ギットハブ | オープンソース | ライセンス |
---|---|---|---|---|---|---|---|---|
ポイントクリップ | 2021年 | 12 | PointCLIP: CLIPによる点群理解 | 点群 + テキスト | ✔️ | |||
クリップ2ポイント | 2022年 | 10 | CLIP2Point: 画像深度の事前トレーニングを使用して CLIP を点群分類に転送 | 点群 + テキスト | ✔️ | |||
ポイントCLIPV2 | 2022年 | 11 | PointCLIP V2: CLIP と GPT による強力な 3D オープンワールド学習の促進 | 点群 + テキスト | ||||
クリップ2 | 2023年 | 3 | CLIP2: 実世界の点群データからの対照的な言語、画像、点の事前トレーニング | 点群 + 画像 + テキスト |
貢献は大歓迎です!新しいペーパーを追加するか、既存のペーパーを更新するには、プル リクエストを送信します。表内の既存の論文の形式に従ってください。