️我们的系列作品: [ MMStar ][ ShareGPT4V ][ ShareGPT4Omni ]
ShareGPT4Video 的正式实施:通过更好的字幕提高视频理解和生成。
下面是一个清晰介绍ShareGPT4Video的视频:
[2024/10/1] ShareGPT4Video被NeurIPS 2024 D&B赛道接受!
[2024/7/1] ShareCaptioner-Video批量推理代码现已发布!
[2024/6/11] ShareCaptioner-Video 网页版和本地版现已上线!
[2024/6/11] ShareGPT4Video-8B 网页演示和本地演示现已推出!
[2024/6/7]我们的论文被HuggingFace Daily Papers推荐并以6.7排名第一。
[2024/5/27] ShareGPT4Video-8B模型发布!
[2024/5/26] ShareGPT4Video数据集和项目页面发布!
您可以通过以下命令直接使用我们的 ShareGPT4Video 模型与您自己的视频进行对话:
python run.py --model-path Lin-Chen/sharegpt4video-8b --video examples/yoga.mp4 --query Describe this video in detail.
或者您可以使用以下命令构建本地演示来欣赏我们的 ShareGPT4Video-8B:
python app.py
您可以使用以下命令构建本地演示以欣赏我们的 ShareCaptioner-Video:
cd captioner
python app.py
git clone https://github.com/ShareGPT4Omni/ShareGPT4Video
conda create -n share4video python=3.10 -y
conda activate share4video
cd ShareGPT4Video
pip install --upgrade pip
pip install -e .
pip install -e " .[train] "
pip install flash-attn --no-build-isolation
验证高质量视频字幕的有效性,以帮助提高 LVLM 的理解能力。我们选择 VideoLLaVA 和 LLaMA-VID 模型作为我们的基线。两个模型使用的 SFT 数据是 LLaVA-mix665K 图像数据加上 VideoChatGPT-100K 视频数据。我们用 ShareGPT4Video 中的 28K 高质量字幕数据替换 VideoChatGPT-100K 中的 28K 字幕数据。接下来我们以VideoLLaVA为例。
您需要先按照VideoLLaVA中的说明准备好图片和视频,然后从HuggingFace下载ShareGPT4Video中使用的28K视频(仅涉及bdd100k、ego4d和panda)。
最后,您可以在finetune.sh中指定llava_v1_5_mix665k_with_video_chatgpt72k_share4video28k.json文件来执行SFT以重现论文中的结果。
如果您发现我们的工作对您的研究有帮助,请考虑给予星星和引用
@article { chen2024sharegpt4video ,
title = { ShareGPT4Video: Improving Video Understanding and Generation with Better Captions } ,
author = { Chen, Lin and Wei, Xilin and Li, Jinsong and Dong, Xiaoyi and Zhang, Pan and Zang, Yuhang and Chen, Zehui and Duan, Haodong and Lin, Bin and Tang, Zhenyu and others } ,
journal = { arXiv preprint arXiv:2406.04325 } ,
year = { 2024 }
}
@article { chen2023sharegpt4v ,
title = { ShareGPT4V: Improving Large Multi-Modal Models with Better Captions } ,
author = { Chen, Lin and Li, Jisong and Dong, Xiaoyi and Zhang, Pan and He, Conghui and Wang, Jiaqi and Zhao, Feng and Lin, Dahua } ,
journal = { arXiv preprint arXiv:2311.12793 } ,
year = { 2023 }
}
@article { chen2024we ,
title = { Are We on the Right Way for Evaluating Large Vision-Language Models? } ,
author = { Chen, Lin and Li, Jinsong and Dong, Xiaoyi and Zhang, Pan and Zang, Yuhang and Chen, Zehui and Duan, Haodong and Wang, Jiaqi and Qiao, Yu and Lin, Dahua and others } ,
journal = { arXiv preprint arXiv:2403.20330 } ,
year = { 2024 }
}