ShareGPT4Video下载 - ShareGPT4Video源码下载

ShareGPT4Video

其他源码

1.0.0

下载

ShareGPT4Video：通过更好的字幕提高视频理解和生成

️我们的系列作品： [ MMStar ][ ShareGPT4V ][ ShareGPT4Omni ]

ShareGPT4Video 的正式实施：通过更好的字幕提高视频理解和生成。

下面是一个清晰介绍ShareGPT4Video的视频：

demo_clip_v2.mp4

作者：陈林*、魏熙林*、李劲松*、董晓义、张潘、臧宇航、陈泽辉、段浩东、林斌、唐振宇、袁莉、乔宇、林大华、赵峰?、王嘉琪?
院校：中国科学技术大学；香港中文大学；北京大学；上海人工智能实验室
资源：[论文] [项目页面] [ShareGPT4Video 数据集] [Colab]
型号：[?ShareGPT4Video-8B] [?ShareCaptioner-Video]
演示：[?ShareGPT4Video-8B] [?ShareCaptioner-Video]

亮点

大规模的高度描述性的视频文本数据集， 40K GPT4-Vision 生成的视频字幕，大约400K隐式视频分割字幕。
适用于各种视频时长、分辨率和宽高比的通用视频字幕生成器，接近 GPT4-Vision 的字幕功能，具有两种分别针对质量和效率的推理模式。
卓越的大型视频语言模型ShareGPT4Video-8B ，在 8xA100 GPU 上分别持续5 小时的训练。
通过我们的 ShareCaptioner-Video 生成的高质量视频字幕提高文本到视频的性能。感谢开放索拉计划。

消息

[2024/10/1] ShareGPT4Video被NeurIPS 2024 D&B赛道接受！

[2024/7/1] ShareCaptioner-Video批量推理代码现已发布！

[2024/6/11] ShareCaptioner-Video 网页版和本地版现已上线！

[2024/6/11] ShareGPT4Video-8B 网页演示和本地演示现已推出！

[2024/6/7]我们的论文被HuggingFace Daily Papers推荐并以6.7排名第一。

[2024/5/27] ShareGPT4Video-8B模型发布！

[2024/5/26] ShareGPT4Video数据集和项目页面发布！

?‍ 都都

ShareGPT4Video-8B 的训练代码
ShareCaptioner-Video 的批量推理代码
ShareCaptioner-Video 的网页演示和本地演示
ShareGPT4Video-8B 的网页演示和本地演示
ShareGPT4Video-8B 的检查点

快速使用

您可以通过以下命令直接使用我们的 ShareGPT4Video 模型与您自己的视频进行对话：

 python run.py --model-path Lin-Chen/sharegpt4video-8b --video examples/yoga.mp4 --query Describe this video in detail.

或者您可以使用以下命令构建本地演示来欣赏我们的 ShareGPT4Video-8B：

 python app.py

您可以使用以下命令构建本地演示以欣赏我们的 ShareCaptioner-Video：

 cd captioner

python app.py

安装

git clone https://github.com/ShareGPT4Omni/ShareGPT4Video
conda create -n share4video python=3.10 -y
conda activate share4video

cd ShareGPT4Video
pip install --upgrade pip
pip install -e .
pip install -e " .[train] "
pip install flash-attn --no-build-isolation

火车

验证高质量视频字幕的有效性，以帮助提高 LVLM 的理解能力。我们选择 VideoLLaVA 和 LLaMA-VID 模型作为我们的基线。两个模型使用的 SFT 数据是 LLaVA-mix665K 图像数据加上 VideoChatGPT-100K 视频数据。我们用 ShareGPT4Video 中的 28K 高质量字幕数据替换 VideoChatGPT-100K 中的 28K 字幕数据。接下来我们以VideoLLaVA为例。

您需要先按照VideoLLaVA中的说明准备好图片和视频，然后从HuggingFace下载ShareGPT4Video中使用的28K视频（仅涉及bdd100k、ego4d和panda）。

最后，您可以在finetune.sh中指定llava_v1_5_mix665k_with_video_chatgpt72k_share4video28k.json文件来执行SFT以重现论文中的结果。

✒️引用

如果您发现我们的工作对您的研究有帮助，请考虑给予星星和引用

 @article { chen2024sharegpt4video ,
  title = { ShareGPT4Video: Improving Video Understanding and Generation with Better Captions } ,
  author = { Chen, Lin and Wei, Xilin and Li, Jinsong and Dong, Xiaoyi and Zhang, Pan and Zang, Yuhang and Chen, Zehui and Duan, Haodong and Lin, Bin and Tang, Zhenyu and others } ,
  journal = { arXiv preprint arXiv:2406.04325 } ,
  year = { 2024 }
}

@article { chen2023sharegpt4v ,
  title = { ShareGPT4V: Improving Large Multi-Modal Models with Better Captions } ,
  author = { Chen, Lin and Li, Jisong and Dong, Xiaoyi and Zhang, Pan and He, Conghui and Wang, Jiaqi and Zhao, Feng and Lin, Dahua } ,
  journal = { arXiv preprint arXiv:2311.12793 } ,
  year = { 2023 }
}

@article { chen2024we ,
  title = { Are We on the Right Way for Evaluating Large Vision-Language Models? } ,
  author = { Chen, Lin and Li, Jinsong and Dong, Xiaoyi and Zhang, Pan and Zang, Yuhang and Chen, Zehui and Duan, Haodong and Wang, Jiaqi and Qiao, Yu and Lin, Dahua and others } ,
  journal = { arXiv preprint arXiv:2403.20330 } ,
  year = { 2024 }
}