Este repositorio contiene una colección completa de los artículos más importantes relacionados con el preentrenamiento contrastivo para la visión, el lenguaje y el audio. Los artículos están organizados categóricamente y ordenados por año y mes de publicación.
La siguiente tabla contiene una lista de artículos que están directamente relacionados con CLIP, o que amplían CLIP de alguna manera, como mejorando el proceso de capacitación o cambiando el proceso de filtrado de datos. Cada entrada en esta tabla se distingue porque el aprendizaje contrastivo es el principal objetivo de preentrenamiento, a diferencia de los modelos que emplean múltiples objetivos de preentrenamiento, combinando el aprendizaje contrastivo con otros objetivos de preentrenamiento, modelado de lenguaje enmascarado (MLM).
Modelo | Año | Mes | Título del artículo | Desarrollo novedoso | arxiv | GitHub | Código abierto | Licencia | Tarjeta modelo | Integración OpenCLIP |
---|---|---|---|---|---|---|---|---|---|---|
ACORTAR | 2021 | 2 | Aprendizaje de modelos visuales transferibles a partir de la supervisión del lenguaje natural | Preentrenamiento simplificado de imágenes y lenguaje contrastivo | ✔️ | Licencia | Tarjeta modelo | ✔️ | ||
ALINEAR | 2021 | 2 | Ampliación del aprendizaje de representación visual y del lenguaje visual con supervisión de texto ruidoso | Amplíe desde subtítulos hasta texto alternativo ruidoso para evitar filtrado y posprocesamiento costosos. | ✔️ | Tarjeta modelo | ||||
CLUB | 2021 | 10 | CLOOB: Las redes Hopfield modernas con InfoLOOB superan a CLIP | Evitar la saturación del objetivo de InfoNCE | ✔️ | Licencia | ||||
DeCLIP | 2021 | 10 | La supervisión existe en todas partes: un paradigma de preentrenamiento de lenguaje-imagen contrastante eficiente en datos | Eficiencia de datos a través de la supervisión | ✔️ | Licencia | ||||
filipino | 2021 | 11 | FILIP: Preentrenamiento interactivo detallado de imágenes y lenguaje | Agrega máxima similitud simbólica entre características visuales y textuales para una alineación semántica eficiente y detallada. | ✔️ | |||||
Defilip | 2022 | 3 | democratización de la capacitación previa en lenguaje contrastivo e imagen: un punto de referencia CLIP de datos, modelos y supervisión | Combina DeCLIP y FILIP | ✔️ | Licencia | ||||
PirámideCLIP | 2022 | 4 | PyramidCLIP: Alineación jerárquica de funciones para el preentrenamiento del modelo visión-lenguaje | Relaje la suposición de que la imagen y los metadatos están en correspondencia uno a uno | ||||||
KLITE | 2022 | 4 | K-LITE: Aprendizaje de modelos visuales transferibles con conocimiento externo | Aumentar el texto de los subtítulos con conocimiento externo | ✔️ | Licencia | ||||
CyCLIP | 2022 | 5 | CyCLIP: preentrenamiento cíclico de lenguaje-imagen contrastante | Formalice y optimice la coherencia geométrica en espacios de imagen y texto. | ✔️ | Licencia | ||||
VOLTEAR | 2022 | 12 | Escalado del preentrenamiento de lenguaje-imagen mediante enmascaramiento | Enmascarar imágenes antes de codificarlas mejora la relación velocidad-precisión para CLIP | ✔️ | Licencia | ||||
Abrir CLIP | 2022 | 12 | Leyes de escala reproducibles para el aprendizaje contrastivo de lenguaje-imagen | Implementación de código abierto de CLIP | ✔️ | Licencia | Tarjeta modelo | ✔️ | ||
CLIP EVA | 2023 | 3 | EVA-CLIP: Técnicas de formación mejoradas para CLIP a escala | Aprendizaje, optimización y aumento de representación mejorados para un entrenamiento más rápido | ✔️ | Tarjeta modelo | ✔️ | |||
SigLIP | 2023 | 3 | Pérdida sigmoidea para el preentrenamiento de imágenes del lenguaje | La pérdida sigmoidea permite desenredar la pérdida del tamaño del lote | ✔️ | Licencia | ✔️ | |||
CLIPA | 2023 | 5 | Una ley de escala inversa para el entrenamiento CLIP | Conocer la relación entre el tamaño del codificador y las longitudes de las secuencias de entrada de entrenamiento conduce a un entrenamiento más eficiente | ✔️ | Licencia | ✔️ | |||
MetaCLIP | 2023 | 9 | Desmitificando los datos CLIP | Estudio riguroso para revelar el proceso de curación de datos de CLIP | ✔️ | Licencia | ✔️ | |||
DFN | 2023 | 11 | Redes de filtrado de datos | Se puede utilizar un modelo entrenado con datos de alta calidad para filtrar datos masivos en línea empleados para entrenar el modelo CLIP final. | ✔️ | Licencia | Tarjeta modelo | ✔️ |
Modelos que amplían CLIP agregando objetivos de preentrenamiento adicionales, como el modelado de lenguaje enmascarado (MLM).
Las siglas utilizadas en la siguiente tabla son las siguientes:
Todos los modelos de esta tabla también utilizan el aprendizaje contrastivo estilo CLIP como objetivo previo al entrenamiento.
Modelo | Año | Mes | Título del artículo | Técnicas de preentrenamiento | arxiv | GitHub | Código abierto | Licencia |
---|---|---|---|---|---|---|---|---|
DESLIZAR | 2021 | 12 | SLIP: la autosupervisión se une a la capacitación previa en lenguaje e imagen | ISS | ✔️ | Licencia | ||
flava | 2021 | 12 | FLAVA: un modelo fundamental de alineación del lenguaje y la visión | ITM+MMM+MIM+MLM | ✔️ | Licencia | ||
PUNTO LUMINOSO EN UN RADAR | 2022 | 1 | BLIP: preparación previa del lenguaje-imagen para la generación y comprensión del lenguaje de visión unificada | ITM+LM | ✔️ | Licencia | ||
MáscaraCLIP | 2022 | 8 | MaskCLIP: La autodestilación enmascarada avanza en el entrenamiento previo de imágenes y lenguaje contrastivo | MLM+MSD | ||||
ViCHA | 2022 | 8 | Preentrenamiento eficiente de visión y lenguaje con conceptos visuales y alineación jerárquica | H-ITC+ITM+MMM+MIM+MLM | ✔️ | Licencia | ||
RILS | 2023 | 1 | RILS: Reconstrucción visual enmascarada en el espacio semántico del lenguaje | MIM | ||||
CLIP móvil | 2023 | 11 | MobileCLIP: modelos rápidos de imagen y texto mediante entrenamiento reforzado multimodal | MMR | ✔️ | Licencia |
Esta sección contiene colecciones de artículos relacionados con el preentrenamiento contrastivo para otras modalidades, como audio, video y datos 3D.
Modelos que utilizan el aprendizaje contrastivo estilo CLIP como objetivo de preentrenamiento para audio.
Modelo | Año | Mes | Título del artículo | Modalidades | arxiv | GitHub | Código abierto | Licencia |
---|---|---|---|---|---|---|---|---|
AudioCLIP | 2021 | 6 | AudioCLIP: Ampliación de CLIP a imagen, texto y audio | audio+imagen+texto | ✔️ | Licencia | ||
WAV2CLIP | 2021 | 10 | WAV2CLIP: APRENDER representaciones de audio sólidas de CLIP | audio+imagen+texto | ✔️ | Licencia | ||
DiscursoCLIP | 2022 | 10 | SpeechCLIP: integración del habla con un modelo de lenguaje y visión previamente entrenado | discurso+imagen+texto | ✔️ | Licencia | ||
APLAUDIR | 2023 | 4 | Entrenamiento previo de audio y lenguaje contrastivo a gran escala con fusión de funciones y aumento de palabras clave a subtítulos | audio+texto | ✔️ | Licencia | ||
CLVP | 2023 | 5 | Mejor síntesis de voz mediante escalado | voz+texto | ✔️ | Licencia |
Modelos que extienden CLIP al dominio del vídeo.
Modelo | Año | Mes | Título del artículo | arxiv | GitHub | Código abierto | Licencia |
---|---|---|---|---|---|---|---|
CLIP4Clip | 2021 | 4 | CLIP4Clip: un estudio empírico de CLIP para la recuperación de videoclips de un extremo a otro | ✔️ | Licencia | ||
VídeoCLIP | 2021 | 9 | VideoCLIP: entrenamiento previo contrastivo para la comprensión de texto y vídeo de toma cero | ✔️ | Licencia | ||
CLIP X | 2022 | 7 | X-CLIP: Aprendizaje contrastivo multigrano de extremo a extremo para recuperación de texto y vídeo | ✔️ | Licencia |
Modelos que extienden CLIP al dominio 3D.
Modelo | Año | Mes | Título del artículo | Modalidades | arxiv | GitHub | Código abierto | Licencia |
---|---|---|---|---|---|---|---|---|
PuntoCLIP | 2021 | 12 | PointCLIP: comprensión de la nube de puntos mediante CLIP | nube de puntos + texto | ✔️ | |||
CLIP2Punto | 2022 | 10 | CLIP2Point: transfiera CLIP a la clasificación de nubes de puntos con entrenamiento previo de profundidad de imagen | nube de puntos + texto | ✔️ | |||
PuntoCLIPV2 | 2022 | 11 | PointCLIP V2: Impulsando CLIP y GPT para un potente aprendizaje en mundo abierto en 3D | nube de puntos + texto | ||||
CLIP2 | 2023 | 3 | CLIP2: Entrenamiento previo de lenguaje contrastivo, imagen y punto a partir de datos de nubes de puntos del mundo real | nube de puntos + imagen + texto |
¡Las contribuciones son bienvenidas! Envíe una solicitud de extracción para agregar un nuevo artículo o actualizar un artículo existente. ¿Siga el formato de los documentos existentes en la tabla?