[2024/10/04] ? LLaVA-Video (ранее LLaVA-NeXT-Video) претерпел серьезное обновление! Мы рады представить LLaVA-Video-178K , высококачественный синтетический набор данных для настройки видеоинструкций. Этот набор данных включает в себя:
Наряду с этим мы также выпускаем модели LLaVA-Video 7B/72B , которые обеспечивают конкурентоспособную производительность в новейших тестах видео, включая Video-MME, LongVideoBench и Dream-1K.
Узнайте больше :
LLaVA-Video-178K Набор данных: Загрузите набор данных.
Модели LLaVA-Video: контрольные точки модели доступа.
Статья: Подробная информация о LLaVA-Video.
LLaVA-Video Документация: Руководство по обучению, выводам и оценке.
178 510 записей подписей
960 792 открытых пар вопросов и ответов
196 198 вопросов и ответов с несколькими вариантами ответов
[2024/09/13] ? ? LLaVA-OneVision-Чат . Новый чат LLaVA-OV (7B/72B) значительно улучшает качество чата в LLaVA-OV. ?
[2024/08/06] ? ? LLaVA-OneVision (ОВ)! Новые модели LLaVA-OV (0,5B/7B/72B) достигают новых современных показателей производительности в тестах с одним изображением, несколькими изображениями и видео, иногда конкурируя с лучшими коммерческими моделями в 47 различных тестах. ? Узнайте больше:
[Документ]: Углубленное понимание, новые возникающие сценарии, т. е. четкое понимание видео посредством передачи задач из изображений.
[LLaVA-OV Doc]: Руководство по выводу модели и ее оценке.
[Сценарии]: начните обучение моделей на основе ваших данных с одним изображением, несколькими изображениями или видео.
[2024/07/16] ? LLaVA-NeXT-Video обновлен. Новая модель 32B демонстрирует лучшую производительность с открытым исходным кодом в нескольких тестах видео, включая Video-MME. Пожалуйста, обратитесь к этой странице для получения подробной информации, обратитесь к llava_next-video_demo для демонстрации.
[23.06.2024] ? Выпущен LLaVA-NeXT-Interleave . Мы используем формат с чередованием изображения и текста для объединения задач с несколькими изображениями, видео и 3D в одном LLM и достижения производительности SoTA в широком диапазоне тестов. Ознакомьтесь с документами, блогами и контрольными точками, чтобы увидеть новые возможности и улучшенную производительность! Мы выпустили модели 0,5b, 7b и 7b-dpo.
Универсальная программа LLM для работы с несколькими изображениями, видео и 3D с высокой производительностью [демо]
Создайте обучающие данные чередования M4-Instruct
Постройте тест многоизображения LLaVA-Interleave Bench
[25.05.2024] ? Хотите знать: «Что еще, помимо данных, влияет на настройку визуальных инструкций?» В нашем новом блоге обобщаются эмпирические исследования, направленные на устранение различных вариантов дизайна при улучшении LMM, за исключением самих данных. Тем временем откройте исходный код восстановленных высококачественных данных с помощью LLaVA-NeXT-34B на [COCO] [LCS] [CC3M].
Архитектуры (LMM и Vision Encoder)
Визуальные представления (разрешение и количество токенов)
Стратегии обучения (высококачественные данные и обучаемые модули)
[2024/05/10] ? Выпущены модели LLaVA-NeXT (Сильнее) с поддержкой более мощных LMM, включая LLama-3 (8B) и Qwen-1.5 (72B/110B). Посетите [блог] и [контрольные точки], чтобы увидеть улучшенную производительность!
[2024/05/10] ? LLaVA-NeXT (Видео) выпущен. Модель LLaVA-NeXT, обученная только по изображению, на удивление сильна в задачах видео с передачей модальности с нулевым кадром. Обучение DPO с использованием обратной связи ИИ по видео может привести к значительному улучшению. [Блог], [чекпоинты] и [сленг]
[2024/01/30] ? LLaVA-NeXT вышла! Благодаря дополнительному масштабированию до LLaVA-1.5 LLaVA-NeXT-34B превосходит Gemini Pro в некоторых тестах. Теперь он может обрабатывать в 4 раза больше пикселей и выполнять больше задач/приложений, чем раньше. Прочтите публикацию в блоге и изучите демо-версию! Модели доступны в Model Zoo. Скоро появятся данные обучения/оценки и сценарии.
[2024/03/10] ? Выпуск LMMs-Eval , высокоэффективного конвейера оценки, который мы использовали при разработке LLaVA-NeXT. Он поддерживает оценку LMM на десятках общедоступных наборов данных и позволяет внедрять новые наборы данных, что значительно ускоряет разработку новых LMM. [Блог] [Кодовая база]
[2023/11/10] Выпущена программа LLaVA-Plus: обучение использованию инструментов для создания мультимодальных агентов с помощью LLaVA-Plus (LLaVA, которая подключит и научится использовать навыки). [Страница проекта] [Демо] [Код] [Бумага]
[2023/11/02] Выпущена LLaVA-Interactive: испытайте будущее мультимодального взаимодействия человека и искусственного интеллекта с помощью универсальной демо-версии для обмена изображениями, сегментации, генерации и редактирования. [Страница проекта] [Демо] [Код] [Бумага]
[26.10.2023] ? LLaVA-1.5 с LoRA обеспечивает производительность, сравнимую с точной настройкой полной модели, с меньшими требованиями к оперативной памяти графического процессора (ckpts, скрипт). Мы также предоставляем документацию о том, как точно настроить LLaVA-1.5 на вашем собственном наборе данных с помощью LoRA.
[2023/10/12] Ознакомьтесь с корейской LLaVA (Ko-LLaVA), созданной ETRI, которая щедро поддержала наши исследования! [? Демо]
[2023/10/05] ? LLaVA-1.5 вышла! Достижение SoTA в 11 тестах с помощью простых модификаций исходного LLaVA использует все общедоступные данные, завершает обучение примерно за 1 день на одном узле 8-A100 и превосходит такие методы, как Qwen-VL-Chat, которые используют данные миллиардного масштаба. Ознакомьтесь с техническим отчетом и изучите демо-версию! Модели доступны в Model Zoo. Данные обучения и сценарии LLaVA-1.5 публикуются здесь, а оценочные сценарии — здесь!
[2023/09/26] LLaVA улучшена за счет обучения с подкреплением на основе обратной связи с человеком (RLHF), чтобы улучшить обоснование фактов и уменьшить галлюцинации. Ознакомьтесь с новыми контрольно-пропускными пунктами SFT и RLHF в проекте [LLavA-RLHF]
[2023/09/22] LLaVA принята NeurIPS 2023 в качестве устной презентации , а LLaVA-Med принята NeurIPS 2023 Datasets and Benchmarks Track в качестве основной презентации .
[2023/11/06] Поддержка платформ Intel dGPU и CPU. Более подробная информация здесь.
[12.10.2023] LLaVA теперь поддерживается в llama.cpp с поддержкой 4-битного/5-битного квантования!
[11.10.2023] Здесь публикуются обучающие данные и сценарии LLaVA-1.5, а здесь публикуются оценочные сценарии!
[10.10.2023] Глубокое погружение в Roboflow: первые впечатления от LLaVA-1.5.
[20/09/2023] В примечании мы суммируем наше эмпирическое исследование обучения моделей 33B и 65B LLaVA. Кроме того, если вас интересует всесторонний обзор, эволюция и тенденции мультимодальных моделей фундаментов, ознакомьтесь с нашим недавним обзорным докладом «Мультимодальные модели фундаментов: от специалистов к универсальным помощникам».
[2023/07/19] ? Мы выпускаем крупное обновление, включающее поддержку LLaMA-2, обучение LoRA, 4-/8-битный вывод, более высокое разрешение (336x336) и многое другое. Мы выпускаем LLaVA Bench для сравнения открытого визуального чата с результатами Bard и Bing-Chat. Мы также поддерживаем и проверяем обучение с помощью RTX 3090 и RTX A6000. Посмотрите LLaVA-from-LLaMA-2 и наш модельный зоопарк!
[26.06.2023] Учебное пособие CVPR 2023 по большим мультимодальным моделям: на пути к созданию и преодолению мультимодального GPT-4 ! Пожалуйста, посмотрите [Слайды] [Заметки] [YouTube] [Билибли].
[2023/06/11] Мы выпустили предварительную версию самой востребованной функции: поддержки DeepSpeed и LoRA! Пожалуйста, ознакомьтесь с документацией здесь.
[2023/06/01] Мы выпустили LLaVA-Med: помощник по большому языку и зрению для биомедицины , что является шагом на пути к созданию моделей большого языка и зрения в биомедицинской области с возможностями уровня GPT-4. Проверьте бумагу и страницу.
[2023/05/06] Мы выпускаем превью LLaVA-Lighting-MPT-7B на основе MPT-7B-Chat! Подробнее см. здесь.
[2023/05/02] ? Мы выпускаем LLaVA-Lighting! Обучите облегченный мультимодальный GPT-4 всего за 40 долларов за 3 часа! Подробнее см. здесь.
[27.04.2023] Благодаря усилиям сообщества, LLaVA-13B с 4-битным квантованием позволяет работать на графическом процессоре всего с 12 ГБ видеопамяти! Попробуйте здесь.
[2023/04/17] ? Мы выпустили LLaVA: Large Language and Vision Assistant . Мы предлагаем настройку визуальных инструкций для создания больших моделей языка и видения с возможностями уровня GPT-4. Оформить заказ и демо-версию.
Уведомления об использовании и лицензии : В этом проекте используются определенные наборы данных и контрольные точки, на которые распространяются соответствующие оригинальные лицензии. Пользователи должны соблюдать все положения и условия этих исходных лицензий, включая, помимо прочего, Условия использования OpenAI для набора данных и специальные лицензии для моделей базового языка для контрольных точек, обученных с использованием набора данных (например, лицензия сообщества Llama-1/2 для LLaMA-2 и Vicuna-v1.5, ЛИЦЕНЗИОННОЕ СОГЛАШЕНИЕ НА ИССЛЕДОВАНИЯ Tongyi Qianwen и Лицензия на исследования Llama-3). Этот проект не накладывает никаких дополнительных ограничений, помимо тех, которые предусмотрены исходными лицензиями. Кроме того, пользователям напоминают, что они должны убедиться, что использование ими набора данных и контрольных точек соответствует всем применимым законам и правилам.
git-клон https://github.com/LLaVA-VL/LLaVA-NeXTcd LLaVA-NeXT
conda create -n llava python=3.10 -y Конда активирует llava pip install --upgrade pip # Включить поддержку PEP 660.pip install -e ".[train]"
Пожалуйста, посетите следующую страницу для получения более подробной информации о выводах и оценке.
LLaVA-OneVision: для демонстрационных выводов. Оценочный код находится в lmms-eval.
LLaVA-NeXT-Image: для вывода демонстрационных изображений и оценки более сильных LMM с использованием lmms-eval.
LLaVA-NeXT-Video: для сценариев видеовывода и оценки. Рекомендуем использовать LMMs-видео для оценки.
LLaVA-NeXT-Interleave: для демонстрационных и оценочных сценариев с несколькими изображениями.
Мы используем SGLang для ускорения вывода и развертывания LLaVA-NeXT. Вы можете сделать LLaVA-NeXT как серверную службу API с помощью SGLang.
Подготовьте среду : следуя инструкциям в сленге.
Проверьте использование HTTP Post/Get и SRT по адресу sglang/examples/runtime/llava_onevision.
Запуск и запуск на (K) узлах :
Перейти к сленговому проекту
cd PATH_TO/sglang
Первый узел:
bash example/usage/llava_video/srt_example_llava_v.sh K 0 YOUR_VIDEO_PATH YOUR_MODEL_PATH FRAMES_PER_VIDEO (например, примеры bash/usage/llava_video/srt_example_llava_v.sh K 0 примеров/usage/llava_video/videos/Q98Z4OTh8RwmDonc.mp4 lmms-lab/LLaVA-NeXT-Video-7B-DPO 16)
Второй узел:
bash example/usage/llava_video/srt_example_llava_v.sh K 1 YOUR_VIDEO_PATH YOUR_MODEL_PATH FRAMES_PER_VIDEO
Узел К:
bash example/usage/llava_video/srt_example_llava_v.sh K K-1 YOUR_VIDEO_PATH YOUR_MODEL_PATH FRAMES_PER_VIDEO
Если вы найдете его полезным для своих исследований и приложений, пожалуйста, цитируйте соответствующие статьи/блоги, используя этот BibTeX:
@article{li2024llava, title={LLaVA-NeXT-Interleave: работа с несколькими изображениями, видео и 3D в больших мультимодальных моделях}, автор={Ли, Фэн и Чжан, Ренруй и Чжан, Хао и Чжан, Юаньхан и Ли, Бо и Ли, Вэй и Ма, Цзецзюнь и Ли, Чуньюань}, журнал={препринт arXiv arXiv:2407.07895}, год={2024}}@misc{li2024llavanext-ablations, title={LLaVA-NeXT: Что еще влияет на визуальное обучение Настройка за пределами данных?}, url={https://llava-vl.github.io/blog/2024-05-25-llava-next-ablations/}, автор={Ли, Бо и Чжан, Хао и Чжан, Кайчен и Го, Дун и Чжан, Юаньхан и Чжан, Жэньруй и Ли, Фэн и Лю, Цзивэй и Ли, Чуньюань}, месяц={май}, год={2024}}@misc{li2024llavanext-strong,title={LLaVA -NeXT: более сильные LLM расширяют возможности мультимодальных перевозок в дикой природе},url={https://llava-vl.github.io/blog/2024-05-10-llava-next-stronger-llms/},author={Li , Бо и Чжан, Кайчен и Чжан, Хао и Го, Дун и Чжан, Жэньруй и Ли, Фэн и Чжан, Юаньхань и Лю, Цзивэй и Ли, Чуньюань},month={май},year={2024}}@misc {zhang2024llavanext-video, title={LLaVA-NeXT: сильная модель понимания видео с нулевым кадром}, url={https://llava-vl.github.io/blog/2024-04-30-llava-next-video /}, автор={Чжан, Юаньхань и Ли, Бо и Лю, Хаотянь и Ли, Юн Чжэ и Гуй, Лянке и Фу, Ди и Фэн, Цзяши и Лю, Цзывэй и Ли, Чуньюань}, месяц={апрель}, год={2024}}@misc{liu2024llavanext,title={LLaVA-NeXT: Улучшенное мышление, распознавание текста и мировые знания},url={https://llava-vl.github.io/blog/2024-01-30 -llava-next/},author={Лю, Хаотянь и Ли, Чуньюань и Ли, Юхэн и Ли, Бо и Чжан, Юаньхань и Шэнь, Шэн и Ли, Ён Джэ},month={январь},year={2024 }}@misc{liu2023improvedllava, title={Улучшенные базовые показатели с настройкой визуальных инструкций}, автор={Лю, Хаотянь и Ли, Чуньюань и Ли, Юхэн и Ли, Ён Джэ}, издатель={arXiv:2310.03744}, год={2023}, }@misc{liu2023llava, title={Настройка визуальных инструкций}, автор={Лю, Хаотянь и Ли, Чуньюань и Ву, Цинъян и Ли, Ён Джэ}, издатель={NeurIPS}, год={2023}, }
Vicuna: кодовая база, на которой мы работали, и наша базовая модель Vicuna-13B, обладающая потрясающими языковыми возможностями!
Проект LLaVA-NeXT в настоящее время поддерживается командой вместе с нашими участниками (перечислены в алфавитном порядке по именам): Бо Ли, Дун Го, Фэн Ли, Хао Чжан, Кайчен Чжан, Ренруй Чжан, Юаньхан Чжан под руководством Чуньюань Ли и под руководством и помощью Хаотяня Лю.
Системуlmms-eval
и ее основных участников, в том числе Пейюаня Чжана, Фаньи Пу, Джошуа Адриана Кахионо и Кайруи Ху, за их поддержку в части оценки.
Инструкция по настройке с помощью GPT-4
LLaVA-Med: обучение большого помощника по языку и зрению для биомедицины за один день
Otter: контекстная настройка мультимодальных инструкций
Идеи будущих проектов можно найти здесь:
SEEM: сегментируйте все и везде сразу
Grounded-Segment-Anything для обнаружения, сегментации и генерации чего-либо путем объединения Grounding DINO и Segment-Anything.