Este repositório contém uma coleção abrangente dos artigos mais importantes relacionados ao pré-treinamento contrastivo para visão, linguagem e áudio. Os artigos são organizados por categoria e ordenados por ano e mês de publicação.
A tabela a seguir contém uma lista de artigos que estão diretamente relacionados ao CLIP, ou que estendem o CLIP de alguma forma, como melhorando o processo de treinamento ou alterando o processo de filtragem de dados. Cada entrada nesta tabela é distinguida pelo fato de a aprendizagem contrastiva ser o objetivo principal do pré-treinamento, em oposição aos modelos que empregam múltiplos objetivos de pré-treinamento, combinando a aprendizagem contrastiva com outros objetivos de pré-treinamento, modelagem de linguagem mascarada (MLM).
Modelo | Ano | Mês | Título do artigo | Desenvolvimento de romance | Arxiv | GitHub | Código aberto | Licença | Cartão Modelo | Integração OpenCLIP |
---|---|---|---|---|---|---|---|---|---|---|
GRAMPO | 2021 | 2 | Aprendendo modelos visuais transferíveis com supervisão de linguagem natural | Pré-treinamento simplificado de linguagem-imagem contrastiva | ✔️ | Licença | Cartão Modelo | ✔️ | ||
ALINHAR | 2021 | 2 | Ampliando o aprendizado de representação de linguagem visual e visual com supervisão de texto barulhento | Amplie de legendas para texto alternativo barulhento para evitar filtragem e pós-processamento caros | ✔️ | Cartão Modelo | ||||
CLOOB | 2021 | 10 | CLOOB: Redes Hopfield modernas com InfoLOOB Outperform CLIP | Evite a saturação do objetivo InfoNCE | ✔️ | Licença | ||||
DeCLIP | 2021 | 10 | A supervisão existe em todos os lugares: um paradigma de pré-treinamento de linguagem-imagem contrastante com eficiência de dados | Eficiência de dados por meio de supervisão | ✔️ | Licença | ||||
FILIP | 2021 | 11 | FILIP: Pré-treinamento de imagem e linguagem interativo refinado | Adiciona semelhança máxima em termos de token entre recursos visuais e textuais para um alinhamento semântico eficiente e refinado | ✔️ | |||||
DeFILIP | 2022 | 3 | Democratizando o pré-treinamento de linguagem-imagem contrastiva: uma referência CLIP de dados, modelo e supervisão | Combina DeCLIP e FILIP | ✔️ | Licença | ||||
PirâmideCLIP | 2022 | 4 | PyramidCLIP: alinhamento hierárquico de recursos para pré-treinamento de modelo de linguagem de visão | Relaxe a suposição de que a imagem e os metadados estão em correspondência um para um | ||||||
KLITE | 2022 | 4 | K-LITE: Aprendendo modelos visuais transferíveis com conhecimento externo | Aumente o texto da legenda com conhecimento externo | ✔️ | Licença | ||||
CyCLIP | 2022 | 5 | CyCLIP: pré-treinamento de imagem-linguagem contrastiva cíclica | Formalize e otimize a consistência geométrica em espaços de imagem e texto | ✔️ | Licença | ||||
VIRAR | 2022 | 12 | Dimensionando o pré-treinamento de linguagem-imagem via mascaramento | Mascarar imagens antes da codificação melhora a compensação entre velocidade e precisão para CLIP | ✔️ | Licença | ||||
OpenCLIP | 2022 | 12 | Leis de escala reproduzíveis para aprendizagem contrastiva de linguagem-imagem | Implementação de código aberto do CLIP | ✔️ | Licença | Cartão Modelo | ✔️ | ||
EVA-CLIP | 2023 | 3 | EVA-CLIP: técnicas de treinamento aprimoradas para CLIP em escala | Aprendizado, otimização e aumento de representação aprimorados para treinamento mais rápido | ✔️ | Cartão Modelo | ✔️ | |||
SigLIP | 2023 | 3 | Perda sigmóide para pré-treinamento de imagem de linguagem | A perda sigmóide permite separar a perda do tamanho do lote | ✔️ | Licença | ✔️ | |||
CLIPA | 2023 | 5 | Uma lei de escala inversa para treinamento CLIP | A compreensão da relação entre o tamanho do codificador e os comprimentos da sequência de entrada de treinamento leva a um treinamento mais eficiente | ✔️ | Licença | ✔️ | |||
MetaCLIP | 2023 | 9 | Desmistificando dados CLIP | Estudo rigoroso para revelar o processo de curadoria de dados do CLIP | ✔️ | Licença | ✔️ | |||
DFN | 2023 | 11 | Redes de filtragem de dados | Um modelo treinado em dados de alta qualidade pode ser usado para filtrar grandes dados online empregados para treinar o modelo CLIP final | ✔️ | Licença | Cartão Modelo | ✔️ |
Modelos que estendem o CLIP adicionando objetivos de pré-treinamento adicionais, como modelagem de linguagem mascarada (MLM).
As siglas utilizadas na tabela abaixo são as seguintes:
Todos os modelos nesta tabela também usam aprendizagem contrastiva estilo CLIP como objetivo de pré-treinamento.
Modelo | Ano | Mês | Título do artigo | Técnicas de pré-treinamento | Arxiv | GitHub | Código aberto | Licença |
---|---|---|---|---|---|---|---|---|
ESCORREGAR | 2021 | 12 | SLIP: Auto-supervisão e pré-treinamento de linguagem-imagem | ISS | ✔️ | Licença | ||
FLAVA | 2021 | 12 | FLAVA: um modelo fundamental de alinhamento de linguagem e visão | ITM+MMM+MIM+MLM | ✔️ | Licença | ||
BLIPE | 2022 | 1 | BLIP: Inicialização do pré-treinamento de linguagem-imagem para compreensão e geração unificada de visão-linguagem | ITM+LM | ✔️ | Licença | ||
MáscaraCLIP | 2022 | 8 | MaskCLIP: Autodestilação mascarada avança pré-treinamento contrastivo de linguagem-imagem | MLM+MSD | ||||
ViCHA | 2022 | 8 | Pré-treinamento eficiente de linguagem visual com conceitos visuais e alinhamento hierárquico | H-ITC+ITM+MMM+MIM+MLM | ✔️ | Licença | ||
RILS | 2023 | 1 | RILS: Reconstrução Visual Mascarada no Espaço Semântico da Linguagem | MIM | ||||
MobileCLIP | 2023 | 11 | MobileCLIP: modelos rápidos de imagem-texto por meio de treinamento reforçado multimodal | MMR | ✔️ | Licença |
Esta seção contém coleções de artigos relacionados ao pré-treinamento contrastivo para outras modalidades, como áudio, vídeo e dados 3D.
Modelos que usam aprendizagem contrastiva estilo CLIP como objetivo de pré-treinamento para áudio.
Modelo | Ano | Mês | Título do artigo | Modalidades | Arxiv | GitHub | Código aberto | Licença |
---|---|---|---|---|---|---|---|---|
ÁudioCLIP | 2021 | 6 | AudioCLIP: Estendendo CLIP para imagem, texto e áudio | áudio+imagem+texto | ✔️ | Licença | ||
WAV2CLIP | 2021 | 10 | WAV2CLIP: APRENDENDO REPRESENTAÇÕES DE ÁUDIO ROBUSTAS DO CLIP | áudio+imagem+texto | ✔️ | Licença | ||
FalaCLIP | 2022 | 10 | SpeechCLIP: Integrando Fala com Visão Pré-Treinada e Modelo de Linguagem | fala+imagem+texto | ✔️ | Licença | ||
CLAP | 2023 | 4 | Pré-treinamento contrastivo de áudio e linguagem em larga escala com fusão de recursos e aumento de palavra-chave para legenda | áudio+texto | ✔️ | Licença | ||
CLVP | 2023 | 5 | Melhor síntese de fala por meio de escalonamento | fala+texto | ✔️ | Licença |
Modelos que estendem o CLIP ao domínio do vídeo.
Modelo | Ano | Mês | Título do artigo | Arxiv | GitHub | Código aberto | Licença |
---|---|---|---|---|---|---|---|
CLIP4Clip | 2021 | 4 | CLIP4Clip: um estudo empírico do CLIP para recuperação de videoclipe de ponta a ponta | ✔️ | Licença | ||
VídeoCLIP | 2021 | 9 | VideoCLIP: Pré-treinamento contrastivo para compreensão de vídeo-texto de disparo zero | ✔️ | Licença | ||
X CLIP | 2022 | 7 | X-CLIP: Aprendizagem contrastiva multi-granulada de ponta a ponta para recuperação de vídeo-texto | ✔️ | Licença |
Modelos que estendem o CLIP ao domínio 3D.
Modelo | Ano | Mês | Título do artigo | Modalidades | Arxiv | GitHub | Código aberto | Licença |
---|---|---|---|---|---|---|---|---|
PontoCLIP | 2021 | 12 | PointCLIP: compreensão da nuvem de pontos por CLIP | nuvem de pontos + texto | ✔️ | |||
CLIP2Point | 2022 | 10 | CLIP2Point: Transferir CLIP para classificação de nuvem de pontos com pré-treinamento de profundidade de imagem | nuvem de pontos + texto | ✔️ | |||
PontoCLIPV2 | 2022 | 11 | PointCLIP V2: solicitando CLIP e GPT para aprendizado poderoso em mundo aberto 3D | nuvem de pontos + texto | ||||
CLIP2 | 2023 | 3 | CLIP2: Pré-treinamento contrastivo de linguagem-imagem-ponto a partir de dados de nuvem de pontos do mundo real | nuvem de pontos + imagem + texto |
Contribuições são bem-vindas! Envie uma solicitação pull para adicionar um novo artigo ou para atualizar um artigo existente. Por favor, siga o formato dos artigos existentes na tabela?