Ce référentiel contient une collection complète des articles les plus importants liés à la pré-entraînement contrastif pour la vision, le langage et l'audio. Les articles sont organisés par catégories et triés par année et mois de publication.
Le tableau suivant contient une liste d'articles directement liés au CLIP ou qui étendent le CLIP d'une manière ou d'une autre, par exemple en améliorant le processus de formation ou en modifiant le processus de filtrage des données. Chaque entrée de ce tableau se distingue par le fait que l'apprentissage contrastif est le principal objectif de pré-formation, par opposition aux modèles qui emploient plusieurs objectifs de pré-formation, combinant l'apprentissage contrastif avec d'autres objectifs de pré-formation, la modélisation du langage masqué (MLM).
Modèle | Année | Mois | Titre du papier | Développement de roman | Arxiv | GitHub | Source ouverte | Licence | Carte modèle | Intégration OpenCLIP |
---|---|---|---|---|---|---|---|---|---|---|
AGRAFE | 2021 | 2 | Apprentissage de modèles visuels transférables à partir de la supervision du langage naturel | Pré-entraînement contrasté langage-image simplifié | ✔️ | Licence | Carte modèle | ✔️ | ||
ALIGNER | 2021 | 2 | Améliorer l'apprentissage de la représentation visuelle et visuelle-langage grâce à la supervision de textes bruyants | Étendez-vous des sous-titres au texte alternatif bruyant pour éviter un filtrage et un post-traitement coûteux | ✔️ | Carte modèle | ||||
CLOB | 2021 | 10 | CLOOB : les réseaux Hopfield modernes avec InfoLOOB surpassent CLIP | Eviter la saturation de l'objectif InfoNCE | ✔️ | Licence | ||||
DéCLIP | 2021 | 10 | La supervision existe partout : un paradigme de pré-formation langage-image contrasté efficace en matière de données | Efficacité des données grâce à la supervision | ✔️ | Licence | ||||
FILIPE | 2021 | 11 | FILIP : Pré-formation interactive langage-image à granularité fine | Ajoute une similarité maximale au niveau des jetons entre les fonctionnalités visuelles et textuelles pour un alignement sémantique efficace et précis | ✔️ | |||||
DéFILIP | 2022 | 3 | Démocratiser la pré-formation contrastée langage-image : une référence CLIP en matière de données, de modèle et de supervision | Combine DeCLIP et FILIP | ✔️ | Licence | ||||
PyramideCLIP | 2022 | 4 | PyramidCLIP : alignement hiérarchique des fonctionnalités pour le pré-entraînement du modèle vision-langage | Détendez-vous en supposant que l'image et les métadonnées sont en correspondance biunivoque | ||||||
KLITE | 2022 | 4 | K-LITE : apprentissage de modèles visuels transférables avec des connaissances externes | Augmentez le texte de la légende avec des connaissances externes | ✔️ | Licence | ||||
CyCLIP | 2022 | 5 | CyCLIP : Pré-entraînement cyclique contraste langage-image | Formaliser et optimiser pour la cohérence géométrique dans les espaces d'image et de texte | ✔️ | Licence | ||||
RETOURNER | 2022 | 12 | Mise à l'échelle de la pré-formation langage-image via le masquage | Le masquage des images avant l'encodage améliore le compromis vitesse-précision pour CLIP | ✔️ | Licence | ||||
OuvrirCLIP | 2022 | 12 | Lois d'échelle reproductibles pour l'apprentissage contrasté du langage et de l'image | Implémentation open source de CLIP | ✔️ | Licence | Carte modèle | ✔️ | ||
CLIP EVA | 2023 | 3 | EVA-CLIP : techniques de formation améliorées pour CLIP à grande échelle | Apprentissage, optimisation et augmentation des représentations améliorés pour une formation plus rapide | ✔️ | Carte modèle | ✔️ | |||
SigLIP | 2023 | 3 | Perte sigmoïde pour la pré-formation sur l'image du langage | La perte sigmoïde permet de démêler la perte de la taille du lot | ✔️ | Licence | ✔️ | |||
CLIPA | 2023 | 5 | Une loi d'échelle inverse pour la formation CLIP | La connaissance de la relation entre la taille de l'encodeur et la longueur des séquences d'entrée d'entraînement conduit à un entraînement plus efficace | ✔️ | Licence | ✔️ | |||
MétaCLIP | 2023 | 9 | Démystifier les données CLIP | Étude rigoureuse pour révéler le processus de conservation des données de CLIP | ✔️ | Licence | ✔️ | |||
DFN | 2023 | 11 | Réseaux de filtrage de données | Un modèle formé sur des données de haute qualité peut être utilisé pour filtrer des données en ligne massives utilisées pour former le modèle CLIP final. | ✔️ | Licence | Carte modèle | ✔️ |
Modèles qui étendent CLIP en ajoutant des objectifs de pré-formation supplémentaires, tels que la modélisation du langage masqué (MLM).
Les acronymes utilisés dans le tableau ci-dessous sont les suivants :
Tous les modèles de ce tableau utilisent également l'apprentissage contrastif de style CLIP comme objectif de pré-formation.
Modèle | Année | Mois | Titre du papier | Techniques de pré-formation | Arxiv | GitHub | Source ouverte | Licence |
---|---|---|---|---|---|---|---|---|
GLISSER | 2021 | 12 | SLIP : L’auto-supervision rencontre la pré-formation Langage-Image | SSI | ✔️ | Licence | ||
FLAVE | 2021 | 12 | FLAVA : un modèle fondamental d'alignement du langage et de la vision | ITM+MMM+MIM+MLM | ✔️ | Licence | ||
SPOT | 2022 | 1 | BLIP : Pré-formation langage-image d'amorçage pour une compréhension et une génération unifiées de vision-langage | ITM+LM | ✔️ | Licence | ||
MasqueCLIP | 2022 | 8 | MaskCLIP : l'autodistillation masquée fait progresser la pré-formation contrastée langage-image | MLM+MSD | ||||
ViCHA | 2022 | 8 | Préformation efficace du langage visuel avec des concepts visuels et un alignement hiérarchique | H-ITC+ITM+MMM+MIM+MLM | ✔️ | Licence | ||
RIL | 2023 | 1 | RILS : Reconstruction visuelle masquée dans l'espace sémantique du langage | MIM | ||||
MobileCLIP | 2023 | 11 | MobileCLIP : modèles image-texte rapides grâce à une formation renforcée multimodale | ROR | ✔️ | Licence |
Cette section contient des collections d'articles liés à la pré-formation contrastive pour d'autres modalités, telles que les données audio, vidéo et 3D.
Modèles qui utilisent l'apprentissage contrastif de style CLIP comme objectif de pré-entraînement pour l'audio.
Modèle | Année | Mois | Titre du papier | Modalités | Arxiv | GitHub | Source ouverte | Licence |
---|---|---|---|---|---|---|---|---|
AudioCLIP | 2021 | 6 | AudioCLIP : extension de CLIP à l'image, au texte et à l'audio | audio+image+texte | ✔️ | Licence | ||
WAV2CLIP | 2021 | 10 | WAV2CLIP : APPRENTISSAGE DE REPRÉSENTATIONS AUDIO ROBUSTES À PARTIR DE CLIP | audio+image+texte | ✔️ | Licence | ||
DiscoursCLIP | 2022 | 10 | SpeechCLIP : Intégration de la parole avec une vision et un modèle de langage pré-entraînés | parole+image+texte | ✔️ | Licence | ||
TAPER | 2023 | 4 | Pré-entraînement linguistique et audio contrasté à grande échelle avec fusion de fonctionnalités et augmentation de mots clés en sous-titres | audio+texte | ✔️ | Licence | ||
CLVP | 2023 | 5 | Meilleure synthèse vocale grâce à la mise à l'échelle | discours+texte | ✔️ | Licence |
Modèles qui étendent CLIP au domaine vidéo.
Modèle | Année | Mois | Titre du papier | Arxiv | GitHub | Source ouverte | Licence |
---|---|---|---|---|---|---|---|
CLIP4Clip | 2021 | 4 | CLIP4Clip : une étude empirique de CLIP pour la récupération de clips vidéo de bout en bout | ✔️ | Licence | ||
VidéoCLIP | 2021 | 9 | VideoCLIP : Pré-formation contrastée pour la compréhension du texte vidéo sans prise de vue | ✔️ | Licence | ||
X-CLIP | 2022 | 7 | X-CLIP : apprentissage contrastif multigrains de bout en bout pour la récupération de texte vidéo | ✔️ | Licence |
Modèles qui étendent CLIP au domaine 3D.
Modèle | Année | Mois | Titre du papier | Modalités | Arxiv | GitHub | Source ouverte | Licence |
---|---|---|---|---|---|---|---|---|
PointCLIP | 2021 | 12 | PointCLIP : Compréhension des nuages de points par CLIP | nuage de points + texte | ✔️ | |||
CLIP2Point | 2022 | 10 | CLIP2Point : transférer CLIP vers la classification des nuages de points avec pré-formation en profondeur d'image | nuage de points + texte | ✔️ | |||
PointCLIPV2 | 2022 | 11 | PointCLIP V2 : inviter CLIP et GPT pour un apprentissage 3D puissant en monde ouvert | nuage de points + texte | ||||
CLIP2 | 2023 | 3 | CLIP2 : Pré-entraînement contrasté langage-image-point à partir de données de nuages de points du monde réel | nuage de points + image + texte |
Les contributions sont les bienvenues ! Soumettez une pull request pour ajouter un nouvel article ou pour mettre à jour un article existant. Veuillez suivre le format des papiers existants dans le tableau ?