Repositori ini berisi kumpulan komprehensif makalah terpenting terkait dengan prapelatihan kontrastif untuk penglihatan, bahasa, dan audio. Makalah disusun secara kategoris, dan diurutkan berdasarkan tahun dan bulan penerbitan.
Tabel berikut berisi daftar makalah yang berhubungan langsung dengan CLIP, atau memperluas CLIP dalam beberapa cara, seperti dengan meningkatkan proses pelatihan, atau dengan mengubah proses pemfilteran data. Setiap entri dalam tabel ini dibedakan berdasarkan pembelajaran kontrastif yang menjadi tujuan prapelatihan utama , bukan model yang menggunakan beberapa tujuan prapelatihan, yang menggabungkan pembelajaran kontrastif dengan tujuan prapelatihan lainnya pemodelan bahasa bertopeng (MLM).
Model | Tahun | Bulan | Judul Makalah | Perkembangan Baru | Arxiv | Github | Sumber Terbuka | Lisensi | Kartu Model | Integrasi OpenCLIP |
---|---|---|---|---|---|---|---|---|---|---|
KLIP | 2021 | 2 | Mempelajari Model Visual yang Dapat Dipindahtangankan Dari Pengawasan Bahasa Alami | Pelatihan Awal Gambar-Bahasa Kontrasif yang Disederhanakan | ✔️ | Lisensi | Kartu Model | ✔️ | ||
MELURUSKAN | 2021 | 2 | Meningkatkan Pembelajaran Representasi Visual dan Visi-Bahasa Dengan Supervisi Teks Bising | Perluas dari teks hingga teks alternatif yang berisik untuk menghindari pemfilteran dan pasca-pemrosesan yang mahal | ✔️ | Kartu Model | ||||
CLOOB | 2021 | 10 | CLOOB: Jaringan Hopfield Modern dengan InfoLOOB Mengungguli CLIP | Hindari kejenuhan tujuan InfoNCE | ✔️ | Lisensi | ||||
Cabut CLIP | 2021 | 10 | Pengawasan Ada Di Mana Saja: Paradigma Pra-pelatihan Bahasa-Gambar Kontrasif yang Efisien Data | Efisiensi data melalui pengawasan | ✔️ | Lisensi | ||||
FILIP | 2021 | 11 | FILIP: Pra-Pelatihan Gambar-Bahasa Interaktif yang mendetail | Menambahkan kesamaan maksimum berdasarkan token antara fitur visual dan tekstual untuk penyelarasan semantik yang efisien dan terperinci | ✔️ | |||||
DeFILIP | 2022 | 3 | Demokratisasi Pra-pelatihan Gambar-Bahasa yang Kontrasif: Tolok Ukur CLIP untuk Data, Model, dan Pengawasan | Menggabungkan DeCLIP dan FILIP | ✔️ | Lisensi | ||||
KLIP Piramida | 2022 | 4 | PyramidCLIP: Penyelarasan Fitur Hirarki untuk Pra-Pelatihan Model Bahasa Visi | Santai asumsi bahwa gambar dan metadata berada dalam korespondensi satu-ke-satu | ||||||
KLITE | 2022 | 4 | K-LITE: Mempelajari Model Visual yang Dapat Dipindahtangankan dengan Pengetahuan Eksternal | Tambahkan teks keterangan dengan pengetahuan eksternal | ✔️ | Lisensi | ||||
CyCLIP | 2022 | 5 | CyCLIP: Pra-Pelatihan Gambar-Bahasa Kontrasif Siklik | Memformalkan dan mengoptimalkan konsistensi geometris dalam ruang gambar dan teks | ✔️ | Lisensi | ||||
MEMBALIK | 2022 | 12 | Penskalaan Pra-pelatihan Bahasa-Gambar melalui Masking | Menutupi gambar sebelum pengkodean meningkatkan trade-off kecepatan-akurasi untuk CLIP | ✔️ | Lisensi | ||||
OpenCLIP | 2022 | 12 | Hukum penskalaan yang dapat direproduksi untuk pembelajaran gambar bahasa yang kontras | Implementasi CLIP sumber terbuka | ✔️ | Lisensi | Kartu Model | ✔️ | ||
KLIP EVA | 2023 | 3 | EVA-CLIP: Peningkatan Teknik Pelatihan untuk CLIP dalam Skala Besar | Peningkatan pembelajaran representasi, pengoptimalan, dan augmentasi untuk pelatihan yang lebih cepat | ✔️ | Kartu Model | ✔️ | |||
SigLIP | 2023 | 3 | Hilangnya Sigmoid untuk Pra-Pelatihan Citra Bahasa | Kehilangan sigmoid memungkinkan penguraian kerugian dari ukuran batch | ✔️ | Lisensi | ✔️ | |||
KLIP | 2023 | 5 | Hukum Penskalaan Terbalik untuk Pelatihan CLIP | Wawasan tentang hubungan antara ukuran encoder dan panjang urutan input pelatihan menghasilkan pelatihan yang lebih efisien | ✔️ | Lisensi | ✔️ | |||
MetaCLIP | 2023 | 9 | Mengungkap Data CLIP | Kajian ketat untuk mengungkap proses kurasi data CLIP | ✔️ | Lisensi | ✔️ | |||
DFN | 2023 | 11 | Jaringan Penyaringan Data | Model yang dilatih pada data berkualitas tinggi dapat digunakan untuk memfilter data online dalam jumlah besar yang digunakan untuk melatih model CLIP akhir | ✔️ | Lisensi | Kartu Model | ✔️ |
Model yang memperluas CLIP dengan menambahkan tujuan pra-pelatihan tambahan, seperti pemodelan bahasa bertopeng (MLM).
Akronim yang digunakan pada tabel di bawah ini adalah sebagai berikut:
Semua model dalam tabel ini juga menggunakan pembelajaran kontrastif gaya CLIP sebagai tujuan prapelatihan.
Model | Tahun | Bulan | Judul Makalah | Teknik Pra-Pelatihan | Arxiv | Github | Sumber Terbuka | Lisensi |
---|---|---|---|---|---|---|---|---|
TERGELINCIR | 2021 | 12 | SLIP: Pengawasan diri memenuhi Pra-pelatihan Gambar-Bahasa | ISS | ✔️ | Lisensi | ||
FLAVA | 2021 | 12 | FLAVA: Model Penyelarasan Bahasa dan Visi Dasar | ITM+MMM+MIM+MLM | ✔️ | Lisensi | ||
BIP | 2022 | 1 | BLIP: Pra-pelatihan Bootstrap Bahasa-Gambar untuk Pemahaman dan Pembuatan Visi-Bahasa Terpadu | ITM+LM | ✔️ | Lisensi | ||
MaskerKLIP | 2022 | 8 | MaskCLIP: Distilasi Mandiri Bertopeng Meningkatkan Pra-Pelatihan Gambar-Bahasa Kontrasif | MLM+MSD | ||||
ViCHA | 2022 | 8 | Pelatihan Pra-Bahasa Penglihatan yang Efisien dengan Konsep Visual dan Penyelarasan Hirarki | H-ITC+ITM+MMM+MIM+MLM | ✔️ | Lisensi | ||
RIL | 2023 | 1 | RILS: Rekonstruksi Visual Terselubung dalam Ruang Semantik Bahasa | MIM | ||||
Klip Seluler | 2023 | 11 | MobileCLIP: Model Gambar-Teks Cepat melalui Pelatihan yang Diperkuat Multi-Modal | MMR | ✔️ | Lisensi |
Bagian ini berisi kumpulan makalah yang berkaitan dengan prapelatihan kontrastif untuk modalitas lain, seperti data audio, video, dan 3D.
Model yang menggunakan pembelajaran kontrastif gaya CLIP sebagai tujuan prapelatihan untuk audio.
Model | Tahun | Bulan | Judul Makalah | Modalitas | Arxiv | Github | Sumber Terbuka | Lisensi |
---|---|---|---|---|---|---|---|---|
KLIP Audio | 2021 | 6 | AudioCLIP: Memperluas CLIP ke Gambar, Teks dan Audio | audio+gambar+teks | ✔️ | Lisensi | ||
WAV2KLIP | 2021 | 10 | WAV2CLIP: BELAJAR REPRESENTASI AUDIO YANG KUAT DARI CLIP | audio+gambar+teks | ✔️ | Lisensi | ||
PidatoKLIP | 2022 | 10 | SpeechCLIP: Mengintegrasikan Pidato dengan Visi Terlatih dan Model Bahasa | ucapan+gambar+teks | ✔️ | Lisensi | ||
BERTEPUK TANGAN | 2023 | 4 | Pelatihan Awal Audio-Bahasa Kontrasif Berskala Besar dengan Penggabungan Fitur dan Augmentasi Kata Kunci-ke-Teks | audio+teks | ✔️ | Lisensi | ||
CLVP | 2023 | 5 | Sintesis ucapan yang lebih baik melalui penskalaan | ucapan+teks | ✔️ | Lisensi |
Model yang memperluas CLIP ke domain video.
Model | Tahun | Bulan | Judul Makalah | Arxiv | Github | Sumber Terbuka | Lisensi |
---|---|---|---|---|---|---|---|
CLIP4Clip | 2021 | 4 | CLIP4Clip: Studi Empiris CLIP untuk Pengambilan Klip Video End to End | ✔️ | Lisensi | ||
KLIP Video | 2021 | 9 | VideoCLIP: Pra-pelatihan Kontrasif untuk Pemahaman Teks Video Zero-shot | ✔️ | Lisensi | ||
X-KLIP | 2022 | 7 | X-CLIP: Pembelajaran Kontrastif Multi-butir End-to-End untuk Pengambilan Video-Teks | ✔️ | Lisensi |
Model yang memperluas CLIP ke domain 3D.
Model | Tahun | Bulan | Judul Makalah | Modalitas | Arxiv | Github | Sumber Terbuka | Lisensi |
---|---|---|---|---|---|---|---|---|
TitikKLIP | 2021 | 12 | PointCLIP: Pemahaman Point Cloud oleh CLIP | titik awan + teks | ✔️ | |||
CLIP2Titik | 2022 | 10 | CLIP2Point: Transfer CLIP ke Klasifikasi Point Cloud dengan Pra-pelatihan Kedalaman Gambar | titik awan + teks | ✔️ | |||
TitikCLIPV2 | 2022 | 11 | PointCLIP V2: Meminta CLIP dan GPT untuk Pembelajaran Dunia Terbuka 3D yang Kuat | titik awan + teks | ||||
KLIP2 | 2023 | 3 | CLIP2: Pelatihan Awal Titik Gambar-Bahasa Kontras dari Data Cloud Titik Dunia Nyata | titik awan + gambar + teks |
Kontribusi dipersilahkan! Kirimkan permintaan tarik untuk menambahkan makalah baru, atau untuk memperbarui makalah yang sudah ada. Silakan ikuti format makalah yang ada pada tabel?