Документы CVPR 2024 и сборник проектов с открытым исходным кодом (документы с кодом)
Решения CVPR 2024 теперь доступны на OpenReview!
Примечание 1. Каждый может присылать вопросы и делиться документами CVPR 2024 и проектами с открытым исходным кодом!
Примечание 2. Подробную информацию о статьях предыдущих конференций по резюме, а также других высококачественных документах по резюме и подробных обзорах можно найти по адресу: https://github.com/amusi/daily-paper-computer-vision.
Добро пожаловать! Отсканируйте QR-код, чтобы присоединиться к [Группе академического обмена CVer], которая является крупнейшей на планете знаниями в области искусственного интеллекта в области компьютерного зрения! Ежедневно обновляемые, делитесь новейшими и самыми передовыми учебными материалами в области компьютерного зрения, рисования с использованием искусственного интеллекта, обработки изображений, глубокого обучения, автономного вождения, медицинской визуализации и AIGC как можно скорее. Начните обучение!
[Каталог документов с открытым исходным кодом CVPR 2024]
- 3DGS (гауссово пятно)
- Аватары
- Магистраль
- КЛИП
- МАЭ
- Воплощенный ИИ
- ГАН
- ГНН
- Мультимодальная модель большого языка (MLLM)
- Модель большого языка (LLM)
- НАН
- оптическое распознавание символов
- НРФ
- ДЭТР
- Быстрый
- Диффузионные модели
- ReID (переидентификация)
- Распределение с длинным хвостом (Long-Tail)
- Видение Трансформатор
- Видение-Язык
- Самостоятельное обучение
- Увеличение данных
- Обнаружение объектов
- Обнаружение аномалий
- Отслеживание цели (визуальное отслеживание)
- Семантическая сегментация
- Сегментация экземпляров
- Паноптическая сегментация
- Медицинский имидж
- Сегментация медицинских изображений
- Сегментация видеообъектов
- Сегментация экземпляров видео
- Ссылка на сегментацию изображений
- Матирование изображения
- Редактирование изображений
- Низкоуровневое видение
- Супер-разрешение
- шумоподавление
- Размытие
- Автономное вождение
- 3D-облако точек
- Обнаружение 3D-объектов
- 3D-семантическая сегментация
- Трекинг 3D-объектов
- Завершение семантической 3D-сцены (Завершение семантической 3D-сцены)
- 3D регистрация
- 3D-оценка позы человека
- 3D-оценка человеческой сетки
- Медицинский имидж
- Генерация изображений
- Создание видео
- 3D-генерация
- Видео Понимание
- Обнаружение действий
- Обнаружение текста
- Дистилляция знаний
- Обрезка модели
- Сжатие изображения
- 3D реконструкция
- Оценка глубины
- Прогнозирование траектории
- Обнаружение полосы движения
- Подпись к изображению
- Визуальный ответ на вопрос
- Распознавание языка жестов
- Видео прогноз
- Синтез новых представлений
- Обучение с нулевой выборкой (обучение с нулевой выборкой)
- Стерео согласование
- Соответствие функций
- Генерация графа сцены
- Неявные нейронные представления
- Оценка качества изображения
- Оценка качества видео
- Наборы данных
- Новые задачи
- Другие
3DGS (гауссово пятно)
Scaffold-GS: структурированные 3D-гауссианы для адаптивного рендеринга
- Домашняя страница: https://city-super.github.io/scaffold-gs/
- Статья: https://arxiv.org/abs/2312.00109.
- Код: https://github.com/city-super/Scaffold-GS
GPS-Gaussian: обобщенное попиксельное трехмерное гауссово распределение для синтеза новых представлений человека в реальном времени
- Домашняя страница: https://shunyuanzheng.github.io/GPS-Gaussian
- Статья: https://arxiv.org/abs/2312.02155.
- Код: https://github.com/ShunyuanZheng/GPS-Gaussian
GaussianAvatar: к реалистичному моделированию человеческого аватара на основе одного видео с помощью анимационных 3D-гауссианов
- Статья: https://arxiv.org/abs/2312.02134.
- Код: https://github.com/huliangxiao/GaussianAvatar
GaussianEditor: быстрое и управляемое 3D-редактирование с помощью Gaussian Splatting
- Статья: https://arxiv.org/abs/2311.14521.
- Код: https://github.com/buaacyw/GaussianEditor
Деформируемые 3D-гауссианы для высококачественной монокулярной динамической реконструкции сцены
- Домашняя страница: https://ingra14m.github.io/Deformable-Gaussians/
- Статья: https://arxiv.org/abs/2309.13101.
- Код: https://github.com/ingra14m/Deformable-3D-Gaussians
SC-GS: разреженное гауссовское разбрызгивание для редактируемых динамических сцен
- Домашняя страница: https://yihua7.github.io/SC-GS-web/
- Статья: https://arxiv.org/abs/2312.14937.
- Код: https://github.com/yihua7/SC-GS
Распределение гауссовых характеристик пространства-времени для синтеза динамического представления в реальном времени
- Домашняя страница: https://oppo-us-research.github.io/SpacetimeGaussians-website/
- Статья: https://arxiv.org/abs/2312.16812.
- Код: https://github.com/oppo-us-research/SpacetimeGaussians
DNGaussian: оптимизация трехмерных гауссовских полей излучения с разреженным представлением с помощью глобальной-локальной нормализации глубины
- Домашняя страница: https://fictionarry.github.io/DNGaussian/
- Статья: https://arxiv.org/abs/2403.06912.
- Код: https://github.com/Fictionarry/DNGaussian
4D Gaussian Splatting для динамического рендеринга сцен в реальном времени
- Статья: https://arxiv.org/abs/2310.08528.
- Код: https://github.com/hustvl/4DGaussians
GaussianDreamer: быстрое преобразование текста в трехмерные гауссианы путем объединения двухмерных и трехмерных диффузионных моделей
- Статья: https://arxiv.org/abs/2310.08529.
- Код: https://github.com/hustvl/GaussianDreamer
Аватары
GaussianAvatar: к реалистичному моделированию человеческого аватара на основе одного видео с помощью анимационных 3D-гауссианов
- Статья: https://arxiv.org/abs/2312.02134.
- Код: https://github.com/huliangxiao/GaussianAvatar
Имитация аватара в реальном времени с помощью датчиков, закрепленных на голове
- Домашняя страница: https://www.zhengyiluo.com/SimXR/
- Статья: https://arxiv.org/abs/2403.06862.
Магистраль
RepViT: новый взгляд на мобильную CNN с точки зрения ViT
- Статья: https://arxiv.org/abs/2307.09283.
- Код: https://github.com/THU-MIG/RepViT
TransNeXt: надежное фовеальное зрительное восприятие для преобразователей зрения
- Статья: https://arxiv.org/abs/2311.17132.
- Код: https://github.com/DaiShiResearch/TransNeXt
КЛИП
Alpha-CLIP: модель CLIP, ориентированная на то, где вы хотите
- Статья: https://arxiv.org/abs/2312.03818.
- Код: https://github.com/SunzeY/AlphaCLIP
FairCLIP: обеспечение справедливости в обучении визуальному языку
- Статья: https://arxiv.org/abs/2403.19949.
- Код: https://github.com/Harvard-Ophthalmology-AI-Lab/FairCLIP
МАЭ
Воплощенный ИИ
EmbodiedScan: целостный мультимодальный пакет 3D-восприятия на пути к воплощенному искусственному интеллекту
- Домашняя страница: https://tai-wang.github.io/embodiedscan/
- Статья: https://arxiv.org/abs/2312.16170.
- Код: https://github.com/OpenRobotLab/EmbodiedScan.
MP5: мультимодальная открытая система в Minecraft через активное восприятие
- Домашняя страница: https://iranqin.github.io/MP5.github.io/
- Статья: https://arxiv.org/abs/2312.07472.
- Код: https://github.com/IranQin/MP5
ЛИМОН: изучение трехмерного взаимодействия человека и объекта на основе двумерных изображений
- Статья: https://arxiv.org/abs/2312.08963.
- Код: https://github.com/yyvhang/lemon_3d
ГАН
оптическое распознавание символов
Эмпирическое исследование закона масштабирования для OCR
- Статья: https://arxiv.org/abs/2401.00028.
- Код: https://github.com/large-ocr-model/large-ocr-model.github.io
ODM: подход к предварительному обучению дальнейшего выравнивания текста и изображения для обнаружения и обнаружения текста в сцене
- Статья: https://arxiv.org/abs/2403.00303.
- Код: https://github.com/PriNing/ODM
НРФ
PIE-NeRF?: Интерактивная эластодинамика на основе физики с NeRF
- Статья: https://arxiv.org/abs/2311.13099.
- Код: https://github.com/FYTalon/pienerf/
ДЭТР
DETR превосходят YOLO в обнаружении объектов в реальном времени
- Статья: https://arxiv.org/abs/2304.08069.
- Код: https://github.com/lyuwenyu/RT-DETR
Salience DETR: Улучшение преобразователя обнаружения с помощью усовершенствованной иерархической фильтрации заметности
- Статья: https://arxiv.org/abs/2403.16131.
- Код: https://github.com/xiuqhou/Salience-DETR
Быстрый
Мультимодальная модель большого языка (MLLM)
mPLUG-Owl2: революционная мультимодальная модель большого языка с совместной работой модальностей
- Статья: https://arxiv.org/abs/2311.04257.
- Код: https://github.com/X-PLUG/mPLUG-Owl/tree/main/mPLUG-Owl2
Ссылочно-контекстное обучение для мультимодальных программ LLM
- Статья: https://arxiv.org/abs/2308.07891.
- Код: https://github.com/isekai-portal/Link-Context-Learning/tree/main
OPERA: облегчение галлюцинаций в мультимодальных моделях большого языка с помощью штрафа за чрезмерное доверие и ретроспективного распределения
- Статья: https://arxiv.org/abs/2311.17911.
- Код: https://github.com/shikiw/OPERA
Как заставить большие мультимодальные модели понимать произвольные визуальные подсказки
- Домашняя страница: https://vip-llava.github.io/
- Статья: https://arxiv.org/abs/2312.00784.
Пинк: Раскрытие возможностей референциального понимания для мультимодальных фильмов
- Статья: https://arxiv.org/abs/2310.00582.
- Код: https://github.com/SY-Xuan/Pink
Chat-UniVi: унифицированное визуальное представление расширяет возможности больших языковых моделей с возможностью понимания изображений и видео
- Статья: https://arxiv.org/abs/2311.08046.
- Код: https://github.com/PKU-YuanGroup/Chat-UniVi
OneLLM: одна структура для согласования всех модальностей с языком
- Статья: https://arxiv.org/abs/2312.03700.
- Код: https://github.com/csuhan/OneLLM
Модель большого языка (LLM)
VTimeLLM: Расширение возможностей LLM для захвата видеомоментов
- Статья: https://arxiv.org/abs/2311.18445.
- Код: https://github.com/huangb23/VTimeLLM
НАН
ReID (переидентификация)
Волшебные жетоны: выбирайте различные токены для мультимодальной повторной идентификации объектов
- Статья: https://arxiv.org/abs/2403.10254.
- Код: https://github.com/924973292/EDITOR.
Обучение зашумленным соответствиям для повторной идентификации человека по тексту и изображению
Диффузионные модели
InstanceDiffusion: управление на уровне экземпляра для создания изображений
Домашняя страница: https://people.eecs.berkeley.edu/~xdwang/projects/InstDiff/
Статья: https://arxiv.org/abs/2402.03290.
Код: https://github.com/frank-xwang/InstanceDiffusion
Модели диффузии с остаточным шумоподавлением
- Статья: https://arxiv.org/abs/2308.13712.
- Код: https://github.com/nachifur/RDDM
DeepCache: бесплатное ускорение моделей распространения
- Статья: https://arxiv.org/abs/2312.00858.
- Код: https://github.com/horseee/DeepCache
DEADiff: эффективная модель диффузии стилизации с распутанными представлениями
Домашняя страница: https://tianhao-qi.github.io/DEADiff/
Статья: https://arxiv.org/abs/2403.06951.
Код: https://github.com/Tianhao-Qi/DEADiff_code
SVGDreamer: генерация SVG с текстовым управлением и моделью диффузии
- Статья: https://arxiv.org/abs/2312.16476.
- Код: https://ximinng.github.io/SVGDreamer-project/
InteractDiffusion: управление взаимодействием для модели диффузии текста в изображение
- Статья: https://arxiv.org/abs/2312.05849.
- Код: https://github.com/jiuntian/interactdiffusion
ММА-диффузия: мультимодальная атака на модели диффузии
- Статья: https://arxiv.org/abs/2311.17516.
- Код: https://github.com/yangyijune/MMA-Diffusion
VMC: настройка движения видео с использованием временной адаптации внимания для моделей диффузии текста в видео
- Домашняя страница: https://video-motion-customization.github.io/
- Статья: https://arxiv.org/abs/2312.00845.
- Код: https://github.com/HyeonHo99/Video-Motion-Customization
Видение Трансформатор
TransNeXt: надежное фовеальное зрительное восприятие для преобразователей зрения
- Статья: https://arxiv.org/abs/2311.17132.
- Код: https://github.com/DaiShiResearch/TransNeXt
RepViT: новый взгляд на мобильную CNN с точки зрения ViT
- Статья: https://arxiv.org/abs/2307.09283.
- Код: https://github.com/THU-MIG/RepViT
Общее и эффективное обучение работе с Transformer посредством расширения токена
- Статья: https://arxiv.org/abs/2404.00672.
- Код: https://github.com/Osilly/TokenExpansion
Видение-Язык
PromptKD: неконтролируемая быстрая дистилляция для моделей визуального языка
- Статья: https://arxiv.org/abs/2403.02781.
- Код: https://github.com/zhengli97/PromptKD
FairCLIP: обеспечение справедливости в обучении визуальному языку
- Статья: https://arxiv.org/abs/2403.19949.
- Код: https://github.com/Harvard-Ophthalmology-AI-Lab/FairCLIP
Обнаружение объектов
DETR превосходят YOLO в обнаружении объектов в реальном времени
- Статья: https://arxiv.org/abs/2304.08069.
- Код: https://github.com/lyuwenyu/RT-DETR
Улучшение обнаружения объектов за счет адаптации режима дня и ночи Zero-Shot
- Статья: https://arxiv.org/abs/2312.01220.
- Код: https://github.com/ZPDu/Boosting-Object-Detection-with-Zero-Shot-Day-Night-Domain-Adaptation
YOLO-World: обнаружение объектов с открытым словарем в реальном времени
- Статья: https://arxiv.org/abs/2401.17270.
- Код: https://github.com/AILab-CVC/YOLO-World
Salience DETR: Улучшение преобразователя обнаружения с помощью усовершенствованной иерархической фильтрации заметности
- Статья: https://arxiv.org/abs/2403.16131.
- Код: https://github.com/xiuqhou/Salience-DETR
Обнаружение аномалий
Обучение неоднородности аномалий для контролируемого обнаружения аномалий с открытым набором
- Статья: https://arxiv.org/abs/2310.12790.
- Код: https://github.com/mala-lab/AHL
Отслеживание объектов
Углубление в распределение длинного хвоста траектории для отслеживания нескольких объектов
- Статья: https://arxiv.org/abs/2403.04700.
- Код: https://github.com/chen-si-jia/Trajectory-Long-tail-Distribution-for-MOT
Семантическая сегментация
Сильнее, меньше и превосходнее: использование моделей Vision Foundation для обобщенной семантической сегментации предметной области
- Статья: https://arxiv.org/abs/2312.04265.
- Код: https://github.com/w1oves/Rein
SED: простой кодер-декодер для семантической сегментации открытого словаря
- Статья: https://arxiv.org/abs/2311.15537.
- Код: https://github.com/xb534/SED
Медицинский имидж
Повторное внедрение функций: на пути к производительности базового уровня модели в вычислительной патологии
- Статья: https://arxiv.org/abs/2402.17228.
- Код: https://github.com/DearCaat/RRT-MIL
VoCo: простая, но эффективная система объемного контрастного обучения для анализа 3D-медицинских изображений
- Статья: https://arxiv.org/abs/2402.17300.
- Код: https://github.com/Luffy03/VoCo
ChAda-ViT: Адаптивное внимание к каналам для совместного обучения представлению гетерогенных микроскопических изображений
- Статья: https://arxiv.org/abs/2311.15264.
- Код: https://github.com/nicobou/chada_vit
Сегментация медицинских изображений
Автономное вождение
UniPAD: универсальная парадигма предварительной подготовки для автономного вождения
- Статья: https://arxiv.org/abs/2310.08370.
- Код: https://github.com/Nightmare-n/UniPAD
Cam4DOcc: эталон для четырехмерного прогнозирования занятости с помощью камеры в приложениях автономного вождения
- Статья: https://arxiv.org/abs/2311.17663.
- Код: https://github.com/haomo-ai/Cam4DOcc
Адаптеры на основе памяти для восприятия онлайн-3D-сцен
- Статья: https://arxiv.org/abs/2403.06974.
- Код: https://github.com/xuxw98/Online3D
Симфонизация семантического завершения 3D-сцен с помощью контекстных запросов экземпляров
- Статья: https://arxiv.org/abs/2306.15670.
- Код: https://github.com/hustvl/Symphonies
Реальный крупномасштабный набор данных для восприятия сотрудничества на дорогах
- Статья: https://arxiv.org/abs/2403.10145.
- Код: https://github.com/AIR-THU/DAIR-RCooper
Адаптивное объединение глубины одного и нескольких изображений для автономного вождения
- Статья: https://arxiv.org/abs/2403.07535.
- Код: https://github.com/Junda24/AFNet
Анализ дорожного движения с помощью набора данных TSP6K
- Документ: https://arxiv.org/pdf/2303.02835.pdf.
- Код: https://github.com/PengtaoJiang/TSP6K
3D-облако точек (3D-Point-Cloud)
Обнаружение 3D-объектов
PTT: преобразователь точки и траектории для эффективного обнаружения временных 3D-объектов
- Статья: https://arxiv.org/abs/2312.08371.
- Код: https://github.com/kuanchihhuang/PTT
UniMODE: унифицированное монокулярное обнаружение 3D-объектов
- Статья: https://arxiv.org/abs/2402.18573.
3D-семантическая сегментация
Редактирование изображений
Редактировать один для всех: интерактивное пакетное редактирование изображений
- Домашняя страница: https://thaoshibe.github.io/edit-one-for-all.
- Статья: https://arxiv.org/abs/2401.10219.
- Код: https://github.com/thaoshibe/edit-one-for-all
Редактирование видео
MaskINT: редактирование видео с помощью интерполяционных неавторегрессионных маскированных преобразователей
Низкоуровневое видение
Модели диффузии с остаточным шумоподавлением
- Статья: https://arxiv.org/abs/2308.13712.
- Код: https://github.com/nachifur/RDDM
Ускорение восстановления изображений с помощью априорных моделей из предварительно обученных моделей
- Статья: https://arxiv.org/abs/2403.06793.
Супер-разрешение
SeD: семантический дискриминатор для сверхвысокого разрешения изображений
- Статья: https://arxiv.org/abs/2402.19387.
- Код: https://github.com/lbc12345/SeD
APISR: супер-разрешение, вдохновленное созданием аниме в реальном мире
- Статья: https://arxiv.org/abs/2403.01598.
- Код: https://github.com/Kiteretsu77/APISR
шумоподавление
Шумоподавление изображения
3D-оценка позы человека
Токенизатор песочных часов для эффективной трехмерной оценки позы человека на основе трансформатора
- Статья: https://arxiv.org/abs/2311.12028.
- Код: https://github.com/NationalGAILab/HoT
Генерация изображений
InstanceDiffusion: управление на уровне экземпляра для создания изображений
Домашняя страница: https://people.eecs.berkeley.edu/~xdwang/projects/InstDiff/
Статья: https://arxiv.org/abs/2402.03290.
Код: https://github.com/frank-xwang/InstanceDiffusion
ECLIPSE: ресурсоэффективное преобразование текста в изображение для генерации изображений
Домашняя страница: https://eclipse-t2i.vercel.app/
Статья: https://arxiv.org/abs/2312.04655.
Код: https://github.com/eclipse-t2i/eclipse-inference
Instruct-Imagen: генерация изображений с помощью мультимодальных инструкций
- Статья: https://arxiv.org/abs/2401.01952.
Модели диффузии с остаточным шумоподавлением
- Статья: https://arxiv.org/abs/2308.13712.
- Код: https://github.com/nachifur/RDDM
UniGS: унифицированное представление для создания и сегментации изображений
- Статья: https://arxiv.org/abs/2312.01985.
Контроллер генерации нескольких экземпляров для синтеза текста в изображение
- Статья: https://arxiv.org/abs/2402.05408.
- Код: https://github.com/limuloo/migc
SVGDreamer: генерация SVG с текстовым управлением и моделью диффузии
- Статья: https://arxiv.org/abs/2312.16476.
- Код: https://ximinng.github.io/SVGDreamer-project/
InteractDiffusion: управление взаимодействием для модели диффузии текста в изображение
- Статья: https://arxiv.org/abs/2312.05849.
- Код: https://github.com/jiuntian/interactdiffusion
Ранни: Укрощение распространения текста в изображение для точного следования подсказкам
- Статья: https://arxiv.org/abs/2311.17002.
- Код: https://github.com/ali-vilab/Ranni
Создание видео
Влогер: Преврати свою мечту в видеоблог
- Статья: https://arxiv.org/abs/2401.09414.
- Код: https://github.com/Vchitect/Vlogger.
VBench: Комплексный набор тестов для видеогенеративных моделей
- Домашняя страница: https://vchitect.github.io/VBench-project/
- Статья: https://arxiv.org/abs/2311.17982.
- Код: https://github.com/Vchitect/VBench
VMC: настройка движения видео с использованием временной адаптации внимания для моделей диффузии текста в видео
- Домашняя страница: https://video-motion-customization.github.io/
- Статья: https://arxiv.org/abs/2312.00845.
- Код: https://github.com/HyeonHo99/Video-Motion-Customization
3D-генерация
CityDreamer: композиционная генеративная модель неограниченных 3D-городов
- Домашняя страница: https://haozhexie.com/project/city-dreamer/
- Статья: https://arxiv.org/abs/2309.00610.
- Код: https://github.com/hzxie/city-dreamer
LucidDreamer: На пути к высококачественному преобразованию текста в 3D посредством сопоставления интервальных оценок
- Статья: https://arxiv.org/abs/2311.11284.
- Код: https://github.com/EnVision-Research/LucidDreamer
Видео Понимание
MVBench: комплексный тест для понимания мультимодального видео
- Статья: https://arxiv.org/abs/2311.17005.
- Код: https://github.com/OpenGVLab/Ask-Anything/tree/main/video_chat2
Дистилляция знаний
Логит-стандартизация в дистилляции знаний
- Статья: https://arxiv.org/abs/2403.01427.
- Код: https://github.com/sunshangquan/logit-standardization-KD
Эффективная дистилляция набора данных посредством минимаксной диффузии
- Статья: https://arxiv.org/abs/2311.15529.
- Код: https://github.com/vimar-gu/MinimaxDiffusion
Стерео согласование
Нейронное марковское случайное поле для стереосогласования
- Статья: https://arxiv.org/abs/2403.11193.
- Код: https://github.com/aeolusguan/NMRF
Генерация графа сцены
HiKER-SGG: надежное создание графов сцен с расширенными иерархическими знаниями
- Домашняя страница: https://zhangce01.github.io/HiKER-SGG/
- Статья: https://arxiv.org/abs/2403.12033.
- Код: https://github.com/zhangce01/HiKER-SGG
Оценка качества видео
KVQ: Оценка качества видео калейдоскопа для коротких видеороликов
Домашняя страница: https://lixinustc.github.io/projects/KVQ/
Статья: https://arxiv.org/abs/2402.07220.
Код: https://github.com/lixinustc/KVQ-Challenge-CVPR-NTIRE2024.
Наборы данных
Реальный крупномасштабный набор данных для восприятия сотрудничества на дорогах
- Статья: https://arxiv.org/abs/2403.10145.
- Код: https://github.com/AIR-THU/DAIR-RCooper
Анализ дорожного движения с помощью набора данных TSP6K
- Документ: https://arxiv.org/pdf/2303.02835.pdf.
- Код: https://github.com/PengtaoJiang/TSP6K
Другие
Распознавание объектов как прогноз следующего токена
- Статья: https://arxiv.org/abs/2312.02142.
- Код: https://github.com/kaiyuyue/nxtp
ПараметрNet: параметры — это все, что вам нужно для крупномасштабного визуального предварительного обучения мобильных сетей
- Статья: https://arxiv.org/abs/2306.14525.
- Код: https://parameternet.github.io/
Бесшовная композиция движений человека со смешанными позиционными кодировками
- Статья: https://arxiv.org/abs/2402.15509.
- Код: https://github.com/BarqueroНемецкий/FlowMDM
LL3DA: настройка визуальных интерактивных инструкций для понимания, рассуждения и планирования Omni-3D
Домашняя страница: https://ll3da.github.io/
Статья: https://arxiv.org/abs/2311.18651.
Код: https://github.com/Open3DA/LL3DA
CLOVA: визуальный помощник замкнутого цикла с использованием и обновлением инструментов
- Домашняя страница: https://clova-tool.github.io/
- Статья: https://arxiv.org/abs/2312.10908.
MoMask: Генеративное маскированное моделирование трехмерных движений человека
- Статья: https://arxiv.org/abs/2312.00063.
- Код: https://github.com/EricGuo5513/momask-codes
Амодальная основная истина и завершение в дикой природе
- Домашняя страница: https://www.robots.ox.ac.uk/~vgg/research/amodal/
- Статья: https://arxiv.org/abs/2312.17247.
- Код: https://github.com/Championchess/Amodal-Completion-in-the-Wild
Улучшение визуального обоснования посредством последовательных объяснений
- Статья: https://arxiv.org/abs/2312.04554.
- Код: https://github.com/uvavision/SelfEQ
ImageNet-D: Сравнительный анализ устойчивости нейронной сети на диффузионном синтетическом объекте
- Домашняя страница: https://chenshuang-zhang.github.io/imagenet_d/
- Статья: https://arxiv.org/abs/2403.18775.
- Код: https://github.com/chenshuang-zhang/imagenet_d
Обучение на синтетической групповой деятельности людей
- Домашняя страница: https://cjerry1243.github.io/M3Act/
- Бумага https://arxiv.org/abs/2306.16772
- Код: https://github.com/cjerry1243/M3Act
Межпредметная система декодирования мозга
- Домашняя страница: https://littlepure2333.github.io/MindBridge/
- Статья: https://arxiv.org/abs/2404.07850.
- Код: https://github.com/littlepure2333/MindBridge
Многозадачное плотное прогнозирование с помощью экспертов низкого ранга
- Статья: https://arxiv.org/abs/2403.17749.
- Код: https://github.com/YuqiYang213/MLoRE
Сравнительное обучение среднему сдвигу для обнаружения обобщенных категорий
- Домашняя страница: https://postech-cvlab.github.io/cms/
- Статья: https://arxiv.org/abs/2404.09451.
- Код: https://github.com/sua-choi/CMS