️ Наша серия работает: [ MMStar ] [ ShareGPT4V ] [ ShareGPT4Omni ]
Официальная реализация ShareGPT4Video: улучшение понимания и создания видео с помощью более качественных подписей .
Вот видео, наглядно демонстрирующее ShareGPT4Video:
[2024/10/1] ShareGPT4Video был принят треком NeurIPS 2024 D&B!
[2024/7/1] Код пакетного вывода ShareCaptioner-Video уже доступен!
[2024/6/11] Веб-демонстрация и локальная демо-версия ShareCaptioner-Video уже доступны!
[2024/6/11] Веб-демонстрация и локальная демо-версия ShareGPT4Video-8B уже доступны!
[2024/6/7] Наша газета была отмечена как HuggingFace Daily Papers и заняла 1-е место в рейтинге 6,7.
[27.05.2024] Выпущена модель ShareGPT4Video-8B!
[26.05.2024] Выпущены набор данных ShareGPT4Video и страница проекта!
Вы можете напрямую использовать нашу модель ShareGPT4Video для общения с вашим собственным видео с помощью следующей команды:
python run.py --model-path Lin-Chen/sharegpt4video-8b --video examples/yoga.mp4 --query Describe this video in detail.
Или вы можете создать свою локальную демо-версию и насладиться нашим ShareGPT4Video-8B с помощью следующей команды:
python app.py
Вы можете создать свою локальную демо-версию для просмотра нашего ShareCaptioner-Video с помощью следующей команды:
cd captioner
python app.py
git clone https://github.com/ShareGPT4Omni/ShareGPT4Video
conda create -n share4video python=3.10 -y
conda activate share4video
cd ShareGPT4Video
pip install --upgrade pip
pip install -e .
pip install -e " .[train] "
pip install flash-attn --no-build-isolation
Подтвердить эффективность высококачественных субтитров к видео для улучшения возможностей понимания LVLM. В качестве базовых мы выбрали модели VideoLLaVA и LLaMA-VID. Данные SFT, используемые для обеих моделей, представляют собой данные изображения LLaVA-mix665K плюс видеоданные VideoChatGPT-100K. Мы заменяем данные подписей 28 КБ в VideoChatGPT-100K на данные подписей высокого качества 28 КБ из ShareGPT4Video. Далее в качестве примера мы возьмем VideoLLaVA.
Вам необходимо следовать инструкциям в VideoLLaVA, чтобы сначала подготовить изображения и видео, а затем загрузить видео 28K, используемые в ShareGPT4Video, из HuggingFace (включает только bdd100k, ego4d и panda).
Наконец, вы можете указать файл llava_v1_5_mix665k_with_video_chatgpt72k_share4video28k.json в файле Finetune.sh, чтобы выполнить SFT для воспроизведения результатов в статье.
Если вы считаете нашу работу полезной для вашего исследования, поставьте звездочку и цитируйте ее.
@article { chen2024sharegpt4video ,
title = { ShareGPT4Video: Improving Video Understanding and Generation with Better Captions } ,
author = { Chen, Lin and Wei, Xilin and Li, Jinsong and Dong, Xiaoyi and Zhang, Pan and Zang, Yuhang and Chen, Zehui and Duan, Haodong and Lin, Bin and Tang, Zhenyu and others } ,
journal = { arXiv preprint arXiv:2406.04325 } ,
year = { 2024 }
}
@article { chen2023sharegpt4v ,
title = { ShareGPT4V: Improving Large Multi-Modal Models with Better Captions } ,
author = { Chen, Lin and Li, Jisong and Dong, Xiaoyi and Zhang, Pan and He, Conghui and Wang, Jiaqi and Zhao, Feng and Lin, Dahua } ,
journal = { arXiv preprint arXiv:2311.12793 } ,
year = { 2023 }
}
@article { chen2024we ,
title = { Are We on the Right Way for Evaluating Large Vision-Language Models? } ,
author = { Chen, Lin and Li, Jinsong and Dong, Xiaoyi and Zhang, Pan and Zang, Yuhang and Chen, Zehui and Duan, Haodong and Wang, Jiaqi and Qiao, Yu and Lin, Dahua and others } ,
journal = { arXiv preprint arXiv:2403.20330 } ,
year = { 2024 }
}