awesome clip papers
1.0.0
이 저장소에는 시각, 언어 및 오디오에 대한 대조 사전 훈련과 관련된 가장 중요한 논문의 포괄적인 컬렉션이 포함되어 있습니다. 논문은 범주별로 구성되어 있으며 출판 연도 및 월별로 정렬되어 있습니다.
다음 표에는 CLIP과 직접 관련이 있거나 학습 프로세스를 개선하거나 데이터 필터링 프로세스를 변경하는 등 어떤 방식으로든 CLIP을 확장하는 논문 목록이 포함되어 있습니다. 이 표의 모든 항목은 대조 학습이 다른 사전 학습 목표 MLM(마스킹된 언어 모델링)과 결합하여 여러 사전 학습 목표를 사용하는 모델과 달리 기본 사전 학습 목표인 대조 학습으로 구별됩니다.
모델 | 년도 | 월 | 논문 제목 | 소설 개발 | 아르크시브 | Github | 오픈 소스 | 특허 | 모델 카드 | OpenCLIP 통합 |
---|---|---|---|---|---|---|---|---|---|---|
클립 | 2021 | 2 | 자연어 감독을 통해 전달 가능한 시각적 모델 학습 | 단순화된 대조 언어-이미지 사전 훈련 | ✔️ | 특허 | 모델 카드 | ✔️ | ||
맞추다 | 2021 | 2 | 시끄러운 텍스트 감독을 통해 시각적 및 시각 언어 표현 학습 확장 | 비용이 많이 드는 필터링 및 후처리를 피하기 위해 캡션에서 시끄러운 대체 텍스트로 확장 | ✔️ | 모델 카드 | ||||
클루브 | 2021 | 10 | CLOOB: InfoLOOB를 사용한 최신 Hopfield 네트워크가 CLIP보다 성능이 뛰어남 | InfoNCE 목표의 포화 방지 | ✔️ | 특허 | ||||
디클립 | 2021 | 10 | 감독은 어디에나 존재합니다: 데이터 효율적인 대조 언어-이미지 사전 훈련 패러다임 | 감독을 통한 데이터 효율성 | ✔️ | 특허 | ||||
필립 | 2021 | 11 | FILIP: 세분화된 대화형 언어-이미지 사전 훈련 | 효율적이고 세분화된 의미 체계 정렬을 위해 시각적 기능과 텍스트 기능 간에 토큰별 최대 유사성을 추가합니다. | ✔️ | |||||
디필립 | 2022년 | 3 | 대조되는 언어-이미지 사전 훈련 민주화: 데이터, 모델 및 감독에 대한 CLIP 벤치마크 | DeCLIP과 FILIP 결합 | ✔️ | 특허 | ||||
피라미드CLIP | 2022년 | 4 | PyramidCLIP: 비전 언어 모델 사전 훈련을 위한 계층적 기능 정렬 | 이미지와 메타데이터가 일대일 대응이라는 가정을 완화하세요. | ||||||
KLITE | 2022년 | 4 | K-LITE: 외부 지식을 활용한 전이 가능한 시각적 모델 학습 | 외부 지식으로 캡션 텍스트 강화 | ✔️ | 특허 | ||||
싸이클립 | 2022년 | 5 | CyCLIP: 순환 대조 언어-이미지 사전 훈련 | 이미지와 텍스트 공간의 기하학적 일관성을 공식화하고 최적화합니다. | ✔️ | 특허 | ||||
튀기다 | 2022년 | 12 | 마스킹을 통한 스케일링 언어-이미지 사전 훈련 | 인코딩 전 이미지를 마스킹하면 CLIP의 속도-정확도 균형이 향상됩니다. | ✔️ | 특허 | ||||
오픈클립 | 2022년 | 12 | 대조 언어-이미지 학습을 위한 재현 가능한 확장 법칙 | CLIP의 오픈 소스 구현 | ✔️ | 특허 | 모델 카드 | ✔️ | ||
EVA-클립 | 2023년 | 3 | EVA-CLIP: 대규모 CLIP을 위한 향상된 교육 기술 | 더 빠른 훈련을 위한 개선된 표현 학습, 최적화 및 보강 | ✔️ | 모델 카드 | ✔️ | |||
시그립 | 2023년 | 3 | 언어 이미지 사전 훈련을 위한 시그모이드 손실 | 시그모이드 손실을 통해 배치 크기에서 손실을 분리할 수 있습니다. | ✔️ | 특허 | ✔️ | |||
클리파 | 2023년 | 5 | CLIP 훈련을 위한 역확장 법칙 | 인코더 크기와 교육 입력 시퀀스 길이 간의 관계에 대한 통찰력을 통해 보다 효율적인 교육이 가능합니다. | ✔️ | 특허 | ✔️ | |||
메타클립 | 2023년 | 9 | CLIP 데이터 이해하기 | CLIP의 데이터 큐레이션 프로세스를 밝히기 위한 엄격한 연구 | ✔️ | 특허 | ✔️ | |||
DFN | 2023년 | 11 | 데이터 필터링 네트워크 | 고품질 데이터에 대해 훈련된 모델은 최종 CLIP 모델을 훈련하는 데 사용되는 대규모 온라인 데이터를 필터링하는 데 사용될 수 있습니다. | ✔️ | 특허 | 모델 카드 | ✔️ |
MLM(Masked Language Modeling)과 같은 사전 학습 목표를 추가하여 CLIP을 확장하는 모델입니다.
아래 표에 사용된 약어는 다음과 같습니다.
이 표의 모든 모델은 사전 학습 목표로 CLIP 스타일 대조 학습도 사용합니다.
모델 | 년도 | 월 | 논문 제목 | 사전 훈련 기법 | 아르크시브 | Github | 오픈 소스 | 특허 |
---|---|---|---|---|---|---|---|---|
슬립 | 2021 | 12 | SLIP: 자기 감독과 언어 이미지 사전 훈련의 만남 | ISS | ✔️ | 특허 | ||
플라바 | 2021 | 12 | FLAVA: 기본 언어 및 비전 정렬 모델 | ITM+MMM+MIM+MLM | ✔️ | 특허 | ||
블립 | 2022년 | 1 | BLIP: 통합 비전-언어 이해 및 생성을 위한 부트스트래핑 언어-이미지 사전 훈련 | ITM+LM | ✔️ | 특허 | ||
마스크CLIP | 2022년 | 8 | MaskCLIP: 마스크드 자가 증류로 대조 언어-이미지 사전 훈련 향상 | MLM+MSD | ||||
비차 | 2022년 | 8 | 시각적 개념과 계층적 정렬을 통한 효율적인 비전-언어 사전 훈련 | H-ITC+ITM+MMM+MIM+MLM | ✔️ | 특허 | ||
릴스 | 2023년 | 1 | RILS: 언어 의미 공간의 마스크된 시각적 재구성 | 밈 | ||||
모바일CLIP | 2023년 | 11 | MobileCLIP: 다중 모드 강화 훈련을 통한 빠른 이미지-텍스트 모델 | MMR | ✔️ | 특허 |
이 섹션에는 오디오, 비디오 및 3D 데이터와 같은 다른 양식에 대한 대조 사전 학습과 관련된 논문 모음이 포함되어 있습니다.
오디오에 대한 사전 학습 목표로 CLIP 스타일 대조 학습을 사용하는 모델입니다.
모델 | 년도 | 월 | 논문 제목 | 양식 | 아르크시브 | Github | 오픈 소스 | 특허 |
---|---|---|---|---|---|---|---|---|
오디오CLIP | 2021 | 6 | AudioCLIP: CLIP을 이미지, 텍스트 및 오디오로 확장 | 오디오+이미지+텍스트 | ✔️ | 특허 | ||
WAV2클립 | 2021 | 10 | WAV2CLIP: CLIP에서 강력한 오디오 표현 학습 | 오디오+이미지+텍스트 | ✔️ | 특허 | ||
스피치CLIP | 2022년 | 10 | SpeechCLIP: 사전 훈련된 비전 및 언어 모델과 음성 통합 | 음성+이미지+텍스트 | ✔️ | 특허 | ||
박수 | 2023년 | 4 | 기능 융합 및 키워드-캡션 확대를 통한 대규모 대조 언어-오디오 사전 훈련 | 오디오+텍스트 | ✔️ | 특허 | ||
CLVP | 2023년 | 5 | 스케일링을 통해 향상된 음성 합성 | 음성+텍스트 | ✔️ | 특허 |
CLIP을 비디오 도메인으로 확장하는 모델입니다.
모델 | 년도 | 월 | 논문 제목 | 아르크시브 | Github | 오픈 소스 | 특허 |
---|---|---|---|---|---|---|---|
CLIP4클립 | 2021 | 4 | CLIP4Clip: 엔드투엔드 비디오 클립 검색을 위한 CLIP의 실증적 연구 | ✔️ | 특허 | ||
비디오클립 | 2021 | 9 | VideoCLIP: 제로샷 비디오 텍스트 이해를 위한 대조 사전 훈련 | ✔️ | 특허 | ||
X-클립 | 2022년 | 7 | X-CLIP: 비디오 텍스트 검색을 위한 엔드투엔드 다단계 대조 학습 | ✔️ | 특허 |
CLIP을 3D 도메인으로 확장한 모델입니다.
모델 | 년도 | 월 | 논문 제목 | 양식 | 아르크시브 | Github | 오픈 소스 | 특허 |
---|---|---|---|---|---|---|---|---|
포인트CLIP | 2021 | 12 | PointCLIP: CLIP을 통한 포인트 클라우드 이해 | 포인트 클라우드 + 텍스트 | ✔️ | |||
CLIP2포인트 | 2022년 | 10 | CLIP2Point: 이미지 깊이 사전 훈련을 통해 CLIP을 포인트 클라우드 분류로 전송 | 포인트 클라우드 + 텍스트 | ✔️ | |||
포인트CLIPV2 | 2022년 | 11 | PointCLIP V2: 강력한 3D 오픈 월드 학습을 위해 CLIP 및 GPT 유도 | 포인트 클라우드 + 텍스트 | ||||
클립2 | 2023년 | 3 | CLIP2: 실제 포인트 클라우드 데이터에서 대조되는 언어-이미지-포인트 사전 훈련 | 포인트 클라우드 + 이미지 + 텍스트 |
기여를 환영합니다! 새 논문을 추가하거나 기존 논문을 업데이트하려면 풀 요청을 제출하세요. 표에 있는 기존 논문의 형식을 따르세요.