Dieses Repository enthält eine umfassende Sammlung der wichtigsten Artikel zum kontrastiven Vortraining für Sehen, Sprache und Audio. Die Beiträge sind kategorisch geordnet und nach Erscheinungsjahr und -monat sortiert.
Die folgende Tabelle enthält eine Liste von Artikeln, die in direktem Zusammenhang mit CLIP stehen oder CLIP in irgendeiner Weise erweitern, beispielsweise durch eine Verbesserung des Trainingsprozesses oder durch eine Änderung des Datenfilterungsprozesses. Jeder Eintrag in dieser Tabelle zeichnet sich dadurch aus, dass kontrastives Lernen das primäre Vortrainingsziel ist, im Gegensatz zu Modellen, die mehrere Vortrainingsziele verwenden und kontrastives Lernen mit anderen Vortrainingszielen kombinieren, maskierte Sprachmodellierung (MLM).
Modell | Jahr | Monat | Papiertitel | Neuartige Entwicklung | Arxiv | Github | Open Source | Lizenz | Modellkarte | OpenCLIP-Integration |
---|---|---|---|---|---|---|---|---|---|---|
CLIP | 2021 | 2 | Lernen übertragbarer visueller Modelle aus der Überwachung natürlicher Sprache | Vereinfachtes kontrastives Sprach-Bild-Vortraining | ✔️ | Lizenz | Modellkarte | ✔️ | ||
AUSRICHTEN | 2021 | 2 | Erweiterung des visuellen und visuellen Sprachrepräsentationslernens durch Überwachung verrauschter Texte | Erweitern Sie die Untertitel auf verrauschten Alt-Text, um teure Filterung und Nachbearbeitung zu vermeiden | ✔️ | Modellkarte | ||||
CLOOB | 2021 | 10 | CLOOB: Moderne Hopfield-Netzwerke mit InfoLOOB übertreffen CLIP | Vermeiden Sie eine Sättigung des InfoNCE-Ziels | ✔️ | Lizenz | ||||
DeCLIP | 2021 | 10 | Überwachung existiert überall: Ein dateneffizientes, kontrastierendes Sprach-Bild-Pre-Training-Paradigma | Dateneffizienz durch Überwachung | ✔️ | Lizenz | ||||
FILIP | 2021 | 11 | FILIP: Feinkörniges interaktives Sprach-Bild-Vortraining | Fügt tokenweise maximale Ähnlichkeit zwischen visuellen und textlichen Merkmalen für eine effiziente und feinkörnige semantische Ausrichtung hinzu | ✔️ | |||||
DeFILIP | 2022 | 3 | Demokratisierung des kontrastierenden Sprach-Bild-Vortrainings: Ein CLIP-Benchmark für Daten, Modell und Überwachung | Kombiniert DeCLIP und FILIP | ✔️ | Lizenz | ||||
PyramidCLIP | 2022 | 4 | PyramidCLIP: Hierarchische Merkmalsausrichtung für das Vortraining von Vision-Language-Modellen | Gehen Sie nicht davon aus, dass Bild und Metadaten in einer Eins-zu-Eins-Entsprechung stehen | ||||||
KLITE | 2022 | 4 | K-LITE: Erlernen übertragbarer visueller Modelle mit externem Wissen | Erweitern Sie den Bildunterschriftentext mit externem Wissen | ✔️ | Lizenz | ||||
CyCLIP | 2022 | 5 | CyCLIP: Zyklisches kontrastives Sprach-Bild-Vortraining | Formulieren und optimieren Sie für geometrische Konsistenz in Bild- und Texträumen | ✔️ | Lizenz | ||||
FLIP | 2022 | 12 | Skalierung des Sprach-Bild-Vortrainings durch Maskierung | Das Maskieren von Bildern vor der Kodierung verbessert den Kompromiss zwischen Geschwindigkeit und Genauigkeit für CLIP | ✔️ | Lizenz | ||||
OpenCLIP | 2022 | 12 | Reproduzierbare Skalierungsgesetze für kontrastives Sprachen-Bild-Lernen | Open-Source-Implementierung von CLIP | ✔️ | Lizenz | Modellkarte | ✔️ | ||
EVA-CLIP | 2023 | 3 | EVA-CLIP: Verbesserte Trainingstechniken für CLIP im großen Maßstab | Verbessertes Repräsentationslernen, Optimierung und Erweiterung für schnelleres Training | ✔️ | Modellkarte | ✔️ | |||
SigLIP | 2023 | 3 | Sigmoidverlust für das Sprachbild-Vortraining | Der Sigmoidverlust ermöglicht die Trennung des Verlusts von der Chargengröße | ✔️ | Lizenz | ✔️ | |||
CLIPA | 2023 | 5 | Ein inverses Skalierungsgesetz für das CLIP-Training | Ein Einblick in die Beziehung zwischen der Encodergröße und den Längen der Trainingseingabesequenzen führt zu einem effizienteren Training | ✔️ | Lizenz | ✔️ | |||
MetaCLIP | 2023 | 9 | CLIP-Daten entmystifizieren | Gründliche Studie zur Aufdeckung des Datenkurationsprozesses von CLIP | ✔️ | Lizenz | ✔️ | |||
DFN | 2023 | 11 | Datenfilternetzwerke | Ein auf qualitativ hochwertigen Daten trainiertes Modell kann zum Filtern umfangreicher Online-Daten verwendet werden, die zum Trainieren des endgültigen CLIP-Modells verwendet werden | ✔️ | Lizenz | Modellkarte | ✔️ |
Modelle, die CLIP erweitern, indem sie zusätzliche Vortrainingsziele hinzufügen, z. B. Masked Language Modeling (MLM).
Die in der folgenden Tabelle verwendeten Akronyme lauten wie folgt:
Alle Modelle in dieser Tabelle verwenden auch kontrastives Lernen im CLIP-Stil als Ziel vor dem Training.
Modell | Jahr | Monat | Papiertitel | Techniken vor dem Training | Arxiv | Github | Open Source | Lizenz |
---|---|---|---|---|---|---|---|---|
BELEG | 2021 | 12 | SLIP: Selbstüberwachung trifft auf Sprachbild-Vorschulung | ISS | ✔️ | Lizenz | ||
FLAVA | 2021 | 12 | FLAVA: Ein grundlegendes Modell zur Ausrichtung von Sprache und Vision | ITM+MMM+MIM+MLM | ✔️ | Lizenz | ||
BLIP | 2022 | 1 | BLIP: Bootstrapping Language-Image-Vorschulung für ein einheitliches Bild-Sprach-Verständnis und -Generierung | ITM+LM | ✔️ | Lizenz | ||
MaskCLIP | 2022 | 8 | MaskCLIP: Maskierte Selbstdestillation fördert das kontrastierende Sprach-Bild-Vortraining | MLM+MSD | ||||
ViCHA | 2022 | 8 | Effizientes Vision-Language-Vortraining mit visuellen Konzepten und hierarchischer Ausrichtung | H-ITC+ITM+MMM+MIM+MLM | ✔️ | Lizenz | ||
RILS | 2023 | 1 | RILS: Maskierte visuelle Rekonstruktion im sprachsemantischen Raum | MIM | ||||
MobileCLIP | 2023 | 11 | MobileCLIP: Schnelle Bild-Text-Modelle durch multimodales verstärktes Training | MMR | ✔️ | Lizenz |
Dieser Abschnitt enthält Sammlungen von Artikeln, die sich auf das kontrastive Vortraining für andere Modalitäten wie Audio-, Video- und 3D-Daten beziehen.
Modelle, die kontrastives Lernen im CLIP-Stil als Vortrainingsziel für Audio verwenden.
Modell | Jahr | Monat | Papiertitel | Modalitäten | Arxiv | Github | Open Source | Lizenz |
---|---|---|---|---|---|---|---|---|
AudioCLIP | 2021 | 6 | AudioCLIP: Erweiterung von CLIP um Bild, Text und Audio | Audio+Bild+Text | ✔️ | Lizenz | ||
WAV2CLIP | 2021 | 10 | WAV2CLIP: ROBUSTE AUDIO-DARSTELLUNGEN AUS CLIP LERNEN | Audio+Bild+Text | ✔️ | Lizenz | ||
SpeechCLIP | 2022 | 10 | SpeechCLIP: Integration von Sprache mit vorab trainiertem Seh- und Sprachmodell | Sprache+Bild+Text | ✔️ | Lizenz | ||
KLATSCHEN | 2023 | 4 | Umfangreiches kontrastives Sprach-Audio-Vortraining mit Feature-Fusion und Keyword-to-Caption-Augmentation | Audio+Text | ✔️ | Lizenz | ||
CLVP | 2023 | 5 | Bessere Sprachsynthese durch Skalierung | Rede+Text | ✔️ | Lizenz |
Modelle, die CLIP auf die Videodomäne erweitern.
Modell | Jahr | Monat | Papiertitel | Arxiv | Github | Open Source | Lizenz |
---|---|---|---|---|---|---|---|
CLIP4Clip | 2021 | 4 | CLIP4Clip: Eine empirische Studie zu CLIP für den End-to-End-Abruf von Videoclips | ✔️ | Lizenz | ||
VideoCLIP | 2021 | 9 | VideoCLIP: Kontrastives Vortraining für das Verständnis von Zero-Shot-Videotext | ✔️ | Lizenz | ||
X-CLIP | 2022 | 7 | X-CLIP: Durchgängiges mehrkörniges kontrastives Lernen für das Abrufen von Videotexten | ✔️ | Lizenz |
Modelle, die CLIP auf die 3D-Domäne erweitern.
Modell | Jahr | Monat | Papiertitel | Modalitäten | Arxiv | Github | Open Source | Lizenz |
---|---|---|---|---|---|---|---|---|
PointCLIP | 2021 | 12 | PointCLIP: Punktwolkenverständnis durch CLIP | Punktwolke + Text | ✔️ | |||
CLIP2Point | 2022 | 10 | CLIP2Point: Übertragen Sie CLIP auf die Punktwolkenklassifizierung mit Bildtiefen-Vortraining | Punktwolke + Text | ✔️ | |||
PointCLIPV2 | 2022 | 11 | PointCLIP V2: Aufforderung an CLIP und GPT für leistungsstarkes 3D-Open-World-Lernen | Punktwolke + Text | ||||
CLIP2 | 2023 | 3 | CLIP2: Kontrastives Sprache-Bild-Punkt-Vortraining aus realen Punktwolkendaten | Punktwolke + Bild + Text |
Beiträge sind willkommen! Senden Sie eine Pull-Anfrage, um ein neues Papier hinzuzufügen oder ein vorhandenes Papier zu aktualisieren. Bitte beachten Sie das Format der vorhandenen Papiere in der Tabelle.