️ 우리 시리즈 작품: [ MMStar ] [ ShareGPT4V ] [ ShareGPT4Omni ]
ShareGPT4Video의 공식 구현: 더 나은 캡션으로 비디오 이해 및 생성 개선 .
다음은 ShareGPT4Video를 명확하게 소개하는 비디오입니다:
[2024/10/1] ShareGPT4Video가 NeurIPS 2024 D&B 트랙에 승인되었습니다!
[2024/7/1] ShareCaptioner-Video의 일괄 추론에 대한 코드를 지금 사용할 수 있습니다!
[2024/6/11] ShareCaptioner-Video의 웹 데모와 로컬 데모를 지금 이용할 수 있습니다!
[2024/6/11] ShareGPT4Video-8B의 웹 데모와 로컬 데모를 지금 이용할 수 있습니다!
[2024/6/7] 저희 논문이 HuggingFace Daily Papers에 선정되어 6.7에서 1위에 올랐습니다.
[2024/5/27] ShareGPT4Video-8B 모델이 출시되었습니다!
[2024/5/26] ShareGPT4Video 데이터세트 및 프로젝트 페이지가 공개되었습니다!
다음 명령을 통해 ShareGPT4Video 모델을 직접 사용하여 자신의 비디오와 대화할 수 있습니다.
python run.py --model-path Lin-Chen/sharegpt4video-8b --video examples/yoga.mp4 --query Describe this video in detail.
또는 다음 명령을 사용하여 로컬 데모를 구축하여 ShareGPT4Video-8B를 즐길 수 있습니다.
python app.py
다음 명령을 사용하여 ShareCaptioner-Video를 즐기기 위한 로컬 데모를 구축할 수 있습니다.
cd captioner
python app.py
git clone https://github.com/ShareGPT4Omni/ShareGPT4Video
conda create -n share4video python=3.10 -y
conda activate share4video
cd ShareGPT4Video
pip install --upgrade pip
pip install -e .
pip install -e " .[train] "
pip install flash-attn --no-build-isolation
LVLM의 이해력을 향상시키는 데 도움이 되는 고품질 비디오 캡션의 효과를 검증합니다. VideoLLaVA 및 LLaMA-VID 모델을 기준으로 선택합니다. 두 모델 모두에 사용되는 SFT 데이터는 LLaVA-mix665K 이미지 데이터와 VideoChatGPT-100K 비디오 데이터입니다. VideoChatGPT-100K의 28K 캡션 데이터를 ShareGPT4Video의 28K 고품질 캡션 데이터로 대체합니다. 다음으로 VideoLLaVA를 예로 들어 보겠습니다.
VideoLLaVA의 지침에 따라 먼저 이미지와 비디오를 준비한 다음 HuggingFace에서 ShareGPT4Video에 사용되는 28K 비디오를 다운로드해야 합니다(bdd100k, ego4d 및 panda만 포함).
마지막으로 Finetune.sh에서 llava_v1_5_mix665k_with_video_chatgpt72k_share4video28k.json 파일을 지정하여 SFT를 수행하여 결과를 논문에 재현할 수 있습니다.
우리의 작업이 귀하의 연구에 도움이 되었다고 생각하시면 별점과 인용을 고려해 보십시오.
@article { chen2024sharegpt4video ,
title = { ShareGPT4Video: Improving Video Understanding and Generation with Better Captions } ,
author = { Chen, Lin and Wei, Xilin and Li, Jinsong and Dong, Xiaoyi and Zhang, Pan and Zang, Yuhang and Chen, Zehui and Duan, Haodong and Lin, Bin and Tang, Zhenyu and others } ,
journal = { arXiv preprint arXiv:2406.04325 } ,
year = { 2024 }
}
@article { chen2023sharegpt4v ,
title = { ShareGPT4V: Improving Large Multi-Modal Models with Better Captions } ,
author = { Chen, Lin and Li, Jisong and Dong, Xiaoyi and Zhang, Pan and He, Conghui and Wang, Jiaqi and Zhao, Feng and Lin, Dahua } ,
journal = { arXiv preprint arXiv:2311.12793 } ,
year = { 2023 }
}
@article { chen2024we ,
title = { Are We on the Right Way for Evaluating Large Vision-Language Models? } ,
author = { Chen, Lin and Li, Jinsong and Dong, Xiaoyi and Zhang, Pan and Zang, Yuhang and Chen, Zehui and Duan, Haodong and Wang, Jiaqi and Qiao, Yu and Lin, Dahua and others } ,
journal = { arXiv preprint arXiv:2403.20330 } ,
year = { 2024 }
}