Загрузка ShareGPT4Video - Загрузка исходного кода ShareGPT4Video

ShareGPT4Video

Другой исходный код

1.0.0

Скачать

ShareGPT4Video: улучшение понимания и создания видео с помощью более качественных подписей

️ Наша серия работает: [ MMStar ] [ ShareGPT4V ] [ ShareGPT4Omni ]

Официальная реализация ShareGPT4Video: улучшение понимания и создания видео с помощью более качественных подписей .

Вот видео, наглядно демонстрирующее ShareGPT4Video:

demo_clip_v2.mp4

Авторы : Линь Чен*, Силинь Вэй* Цзиньсун Ли*, Сяои Донг, Пань Чжан, Юхан Цзан, Цзэхуэй Чен, Хаодун Дуань, Бинь Линь, Чжэньюй Тан, Ли Юань, Юй Цяо, Дахуа Линь, Фэн Чжао?, Цзяци Ван?
Институты : Университет науки и технологий Китая; Китайский университет Гонконга; Пекинский университет; Шанхайская лаборатория искусственного интеллекта
Ресурсы : [Документ] [Страница проекта] [Набор данных ShareGPT4Video] [Colab]
Модели : [?ShareGPT4Video-8B] [?ShareCaptioner-Video]
Демо : [?ShareGPT4Video-8B] [?ShareCaptioner-Video]

Основные моменты

Крупномасштабный набор описательных видеотекстовых данных, 40 000 подписей к видео, созданных GPT4-Vision, около 400 000 неявных разделенных подписей к видео.
Общий субтитер для видео различной продолжительности, разрешения и соотношения сторон , приближающийся к возможностям GPT4-Vision, с двумя режимами вывода, предназначенными для качества и эффективности по отдельности.
Превосходная большая модель видеоязыка ShareGPT4Video-8B , рассчитанная на 5 часов обучения на графических процессорах 8xA100 соответственно.
Повышение производительности преобразования текста в видео с помощью высококачественных субтитров к видео, созданных с помощью ShareCaptioner-Video. Спасибо Open-Sora-Plan.

Новости

[2024/10/1] ShareGPT4Video был принят треком NeurIPS 2024 D&B!

[2024/7/1] Код пакетного вывода ShareCaptioner-Video уже доступен!

[2024/6/11] Веб-демонстрация и локальная демо-версия ShareCaptioner-Video уже доступны!

[2024/6/11] Веб-демонстрация и локальная демо-версия ShareGPT4Video-8B уже доступны!

[2024/6/7] Наша газета была отмечена как HuggingFace Daily Papers и заняла 1-е место в рейтинге 6,7.

[27.05.2024] Выпущена модель ShareGPT4Video-8B!

[26.05.2024] Выпущены набор данных ShareGPT4Video и страница проекта!

?‍ Тодо

Код обучения для ShareGPT4Video-8B
Код пакетного вывода для ShareCaptioner-Video
Веб-демо и локальная демо-версия ShareCaptioner-Video
Веб-демо и локальная демо-версия ShareGPT4Video-8B
Контрольные точки ShareGPT4Video-8B

Быстрое использование

Вы можете напрямую использовать нашу модель ShareGPT4Video для общения с вашим собственным видео с помощью следующей команды:

 python run.py --model-path Lin-Chen/sharegpt4video-8b --video examples/yoga.mp4 --query Describe this video in detail.

Или вы можете создать свою локальную демо-версию и насладиться нашим ShareGPT4Video-8B с помощью следующей команды:

 python app.py

Вы можете создать свою локальную демо-версию для просмотра нашего ShareCaptioner-Video с помощью следующей команды:

 cd captioner

python app.py

Установить

git clone https://github.com/ShareGPT4Omni/ShareGPT4Video
conda create -n share4video python=3.10 -y
conda activate share4video

cd ShareGPT4Video
pip install --upgrade pip
pip install -e .
pip install -e " .[train] "
pip install flash-attn --no-build-isolation

Тренироваться

Подтвердить эффективность высококачественных субтитров к видео для улучшения возможностей понимания LVLM. В качестве базовых мы выбрали модели VideoLLaVA и LLaMA-VID. Данные SFT, используемые для обеих моделей, представляют собой данные изображения LLaVA-mix665K плюс видеоданные VideoChatGPT-100K. Мы заменяем данные подписей 28 КБ в VideoChatGPT-100K на данные подписей высокого качества 28 КБ из ShareGPT4Video. Далее в качестве примера мы возьмем VideoLLaVA.

Вам необходимо следовать инструкциям в VideoLLaVA, чтобы сначала подготовить изображения и видео, а затем загрузить видео 28K, используемые в ShareGPT4Video, из HuggingFace (включает только bdd100k, ego4d и panda).

Наконец, вы можете указать файл llava_v1_5_mix665k_with_video_chatgpt72k_share4video28k.json в файле Finetune.sh, чтобы выполнить SFT для воспроизведения результатов в статье.

✒️ Цитирование

Если вы считаете нашу работу полезной для вашего исследования, поставьте звездочку и цитируйте ее.

 @article { chen2024sharegpt4video ,
  title = { ShareGPT4Video: Improving Video Understanding and Generation with Better Captions } ,
  author = { Chen, Lin and Wei, Xilin and Li, Jinsong and Dong, Xiaoyi and Zhang, Pan and Zang, Yuhang and Chen, Zehui and Duan, Haodong and Lin, Bin and Tang, Zhenyu and others } ,
  journal = { arXiv preprint arXiv:2406.04325 } ,
  year = { 2024 }
}

@article { chen2023sharegpt4v ,
  title = { ShareGPT4V: Improving Large Multi-Modal Models with Better Captions } ,
  author = { Chen, Lin and Li, Jisong and Dong, Xiaoyi and Zhang, Pan and He, Conghui and Wang, Jiaqi and Zhao, Feng and Lin, Dahua } ,
  journal = { arXiv preprint arXiv:2311.12793 } ,
  year = { 2023 }
}

@article { chen2024we ,
  title = { Are We on the Right Way for Evaluating Large Vision-Language Models? } ,
  author = { Chen, Lin and Li, Jinsong and Dong, Xiaoyi and Zhang, Pan and Zang, Yuhang and Chen, Zehui and Duan, Haodong and Wang, Jiaqi and Qiao, Yu and Lin, Dahua and others } ,
  journal = { arXiv preprint arXiv:2403.20330 } ,
  year = { 2024 }
}

❤️ Благодарности

LLaVA: кодовая база, на которой мы строили. Спасибо за их прекрасную работу.
Open-Sora-Plan: отличная база кода с открытым исходным кодом для реализации преобразования текста в видео в стиле Sora. Спасибо за их прекрасную работу.
Open-LLaVA-NeXT: база кода с открытым исходным кодом для воспроизведения процедуры обучения серии LLaVA-NeXT.

Расширять

Дополнительная информация