Этот репозиторий содержит обширную коллекцию наиболее важных документов, связанных с контрастной предварительной тренировкой зрения, языка и звука. Статьи организованы по категориям и отсортированы по году и месяцу публикации.
В следующей таблице содержится список документов, которые напрямую связаны с CLIP или каким-либо образом расширяют CLIP, например, путем улучшения процесса обучения или изменения процесса фильтрации данных. Каждая запись в этой таблице отличается тем, что контрастное обучение является основной целью предварительного обучения, в отличие от моделей, которые используют несколько целей предварительного обучения, сочетая контрастное обучение с другими целями предварительного обучения, моделирование языка в маске (MLM).
Модель | Год | Месяц | Название статьи | Новое развитие | Арксив | Гитхаб | Открытый исходный код | Лицензия | Модель карты | Интеграция OpenCLIP |
---|---|---|---|---|---|---|---|---|---|---|
КЛИП | 2021 год | 2 | Изучение переносимых визуальных моделей под контролем естественного языка | Упрощенная предварительная тренировка контрастного языка и изображения | ✔️ | Лицензия | Модель карты | ✔️ | ||
ВЫРОВНЯТЬ | 2021 год | 2 | Расширение обучения визуальному и языковому представлению с помощью контроля зашумленного текста | Расширьте возможности от подписей до шумного альтернативного текста, чтобы избежать дорогостоящей фильтрации и постобработки. | ✔️ | Модель карты | ||||
КЛООБ | 2021 год | 10 | CLOOB: современные сети Хопфилда с InfoLOOB превосходят CLIP | Избегайте насыщения целей InfoNCE | ✔️ | Лицензия | ||||
ДеКЛИП | 2021 год | 10 | Надзор существует повсюду: эффективная на основе данных парадигма предварительного обучения с использованием контрастного языка и изображения | Эффективность данных благодаря надзору | ✔️ | Лицензия | ||||
ФИЛИП | 2021 год | 11 | ФИЛИП: Детальная интерактивная предварительная подготовка по языку и изображению | Добавляет максимальное сходство между визуальными и текстовыми функциями по токенам для эффективного и детального семантического выравнивания. | ✔️ | |||||
ДеФИЛИП | 2022 год | 3 | Демократизация предварительной подготовки контрастного языка и образа: контрольный показатель данных, модели и контроля CLIP | Сочетает в себе DeCLIP и FILIP | ✔️ | Лицензия | ||||
ПирамидаCLIP | 2022 год | 4 | PyramidCLIP: иерархическое выравнивание функций для предварительного обучения модели на языке Vision | Ослабьте предположение, что изображение и метаданные находятся во взаимно однозначном соответствии. | ||||||
КЛИТЕ | 2022 год | 4 | K-LITE: изучение переносимых визуальных моделей с использованием внешних знаний | Дополните текст подписи внешними знаниями | ✔️ | Лицензия | ||||
ЦиКЛИП | 2022 год | 5 | CyCLIP: Циклическая контрастная предварительная тренировка языка и изображения | Формализуйте и оптимизируйте геометрическую согласованность в изображениях и текстовых пространствах. | ✔️ | Лицензия | ||||
ПОДБРОСИТЬ | 2022 год | 12 | Масштабирование предварительного обучения языка-изображения с помощью маскировки | Маскирование изображений перед кодированием улучшает соотношение скорости и точности для CLIP. | ✔️ | Лицензия | ||||
OpenCLIP | 2022 год | 12 | Воспроизводимые законы масштабирования для контрастного обучения языку-образу | Реализация CLIP с открытым исходным кодом | ✔️ | Лицензия | Модель карты | ✔️ | ||
ЭВА-КЛИП | 2023 год | 3 | EVA-CLIP: улучшенные методы обучения для CLIP в больших масштабах | Улучшенное обучение, оптимизация и расширение представлений для более быстрого обучения. | ✔️ | Модель карты | ✔️ | |||
СигЛИП | 2023 год | 3 | Потеря сигмовидной кишки для предварительной тренировки языкового изображения | Сигмовидные потери позволяют отделить потери от размера партии. | ✔️ | Лицензия | ✔️ | |||
КЛИПА | 2023 год | 5 | Закон обратного масштабирования для обучения CLIP | Понимание взаимосвязи между размером кодера и длиной обучающей входной последовательности приводит к более эффективному обучению. | ✔️ | Лицензия | ✔️ | |||
МетаКЛИП | 2023 год | 9 | Демистификация данных CLIP | Тщательное исследование, раскрывающее процесс обработки данных CLIP | ✔️ | Лицензия | ✔️ | |||
ДФН | 2023 год | 11 | Сети фильтрации данных | Модель, обученная на высококачественных данных, может использоваться для фильтрации огромных онлайн-данных, используемых для обучения окончательной модели CLIP. | ✔️ | Лицензия | Модель карты | ✔️ |
Модели, которые расширяют CLIP путем добавления дополнительных целей предварительного обучения, таких как моделирование языка в масках (MLM).
В таблице ниже используются следующие аббревиатуры:
Все модели в этой таблице также используют контрастивное обучение в стиле CLIP в качестве цели предварительного обучения.
Модель | Год | Месяц | Название статьи | Техники предварительной тренировки | Арксив | Гитхаб | Открытый исходный код | Лицензия |
---|---|---|---|---|---|---|---|---|
СОСКАЛЬЗЫВАТЬ | 2021 год | 12 | SLIP: самоконтроль и предварительная подготовка к языковому образу | МКС | ✔️ | Лицензия | ||
ФЛАВА | 2021 год | 12 | FLAVA: базовый язык и модель согласования видения | ИТМ+МММ+МИМ+МЛМ | ✔️ | Лицензия | ||
БЛИП | 2022 год | 1 | BLIP: Предварительное обучение языку-образу для унифицированного понимания и создания видения-языка | ИТМ+ЛМ | ✔️ | Лицензия | ||
МаскаCLIP | 2022 год | 8 | MaskCLIP: самодистилляция в маске улучшает предварительную подготовку контрастных языковых образов | МЛМ+МСД | ||||
ВиЧА | 2022 год | 8 | Эффективная предварительная тренировка языка видения с использованием визуальных концепций и иерархического выравнивания | H-ITC+ITM+МММ+МИМ+МЛМ | ✔️ | Лицензия | ||
РИЛС | 2023 год | 1 | RILS: масочная визуальная реконструкция в семантическом пространстве языка | МИМ | ||||
МобильныйCLIP | 2023 год | 11 | MobileCLIP: быстрые модели изображения и текста посредством мультимодального усиленного обучения | ММР | ✔️ | Лицензия |
Этот раздел содержит подборки статей, связанных с контрастной предварительной тренировкой для других модальностей, таких как аудио, видео и 3D-данные.
Модели, которые используют контрастивное обучение в стиле CLIP в качестве цели предварительной подготовки для аудио.
Модель | Год | Месяц | Название статьи | Условия | Арксив | Гитхаб | Открытый исходный код | Лицензия |
---|---|---|---|---|---|---|---|---|
АудиоКЛИП | 2021 год | 6 | AudioCLIP: расширение CLIP на изображение, текст и аудио | аудио+изображение+текст | ✔️ | Лицензия | ||
WAV2CLIP | 2021 год | 10 | WAV2CLIP: ИЗУЧЕНИЕ НАДЕЖНЫХ АУДИО ПРЕДСТАВЛЕНИЙ ИЗ CLIP | аудио+изображение+текст | ✔️ | Лицензия | ||
РечьCLIP | 2022 год | 10 | SpeechCLIP: интеграция речи с предварительно обученным зрением и языковой моделью | речь+изображение+текст | ✔️ | Лицензия | ||
хлопать в ладоши | 2023 год | 4 | Масштабная предварительная подготовка контрастного языка и аудио со слиянием функций и увеличением количества ключевых слов в подписи | аудио+текст | ✔️ | Лицензия | ||
CLVP | 2023 год | 5 | Улучшенный синтез речи за счет масштабирования | речь+текст | ✔️ | Лицензия |
Модели, расширяющие CLIP на видеообласть.
Модель | Год | Месяц | Название статьи | Арксив | Гитхаб | Открытый исходный код | Лицензия |
---|---|---|---|---|---|---|---|
CLIP4Клип | 2021 год | 4 | CLIP4Clip: эмпирическое исследование CLIP для сквозного поиска видеоклипов | ✔️ | Лицензия | ||
ВидеоКЛИП | 2021 год | 9 | VideoCLIP: контрастивная предварительная тренировка для понимания видео и текста с нуля | ✔️ | Лицензия | ||
X-КЛИП | 2022 год | 7 | X-CLIP: сквозное многоуровневое контрастное обучение для поиска видео и текста | ✔️ | Лицензия |
Модели, расширяющие CLIP до 3D-доменов.
Модель | Год | Месяц | Название статьи | Условия | Арксив | Гитхаб | Открытый исходный код | Лицензия |
---|---|---|---|---|---|---|---|---|
ТочкаCLIP | 2021 год | 12 | PointCLIP: понимание облаков точек с помощью CLIP | облако точек + текст | ✔️ | |||
CLIP2Point | 2022 год | 10 | CLIP2Point: перенос CLIP в классификацию облака точек с предварительным обучением глубины изображения | облако точек + текст | ✔️ | |||
ТочкаCLIPV2 | 2022 год | 11 | PointCLIP V2: использование CLIP и GPT для эффективного 3D-обучения в открытом мире | облако точек + текст | ||||
КЛИП2 | 2023 год | 3 | CLIP2: Предварительное обучение контрастному языку-изображению-точкам на основе данных облака точек реального мира | облако точек + изображение + текст |
Вклады приветствуются! Отправьте запрос на добавление новой статьи или обновление существующей статьи. Пожалуйста, следуйте формату существующих документов в таблице?