️私たちのシリーズ作品: [ MMStar ] [ ShareGPT4V ] [ ShareGPT4Omni ]
ShareGPT4Video の正式実装: より良いキャプションによるビデオの理解と生成の向上。
ShareGPT4Video をわかりやすく紹介するビデオは次のとおりです。
[2024/10/1] ShareGPT4VideoがNeurIPS 2024 D&Bトラックに採択されました!
[2024/7/1] ShareCaptioner-Videoのバッチ推論に関するコードを公開しました!
[2024/6/11] ShareCaptioner-Video のウェブデモとローカルデモを公開しました!
[2024/6/11] ShareGPT4Video-8BのWebデモとローカルデモを公開しました!
[2024/6/7]弊社の論文がHuggingFace Daily Papersとして紹介され、6.7で1位にランクされました。
【2024/5/27】 ShareGPT4Video-8Bモデルを発売しました!
[2024/5/26] ShareGPT4Video データセットとプロジェクトページを公開しました!
次のコマンドにより、ShareGPT4Video モデルを直接使用して独自のビデオと会話できます。
python run.py --model-path Lin-Chen/sharegpt4video-8b --video examples/yoga.mp4 --query Describe this video in detail.
または、次のコマンドを使用して、ローカル デモを構築して ShareGPT4Video-8B を楽しむこともできます。
python app.py
次のコマンドを使用して、ShareCaptioner-Video を楽しむためのローカル デモを構築できます。
cd captioner
python app.py
git clone https://github.com/ShareGPT4Omni/ShareGPT4Video
conda create -n share4video python=3.10 -y
conda activate share4video
cd ShareGPT4Video
pip install --upgrade pip
pip install -e .
pip install -e " .[train] "
pip install flash-attn --no-build-isolation
LVLM の理解能力の向上に役立つ高品質ビデオ キャプションの有効性を検証する。 VideoLLaVA モデルと LLaMA-VID モデルをベースラインとして選択します。両モデルで使用されるSFTデータは、LLaVA-mix665K画像データとVideoChatGPT-100Kビデオデータです。 VideoChatGPT-100K の 28K 字幕データを ShareGPT4Video の 28K 高品質字幕データに置き換えます。次に、VideoLLaVA を例に挙げます。
VideoLLaVA の指示に従って、まず画像とビデオを準備してから、ShareGPT4Video で使用される 28K ビデオを HuggingFace からダウンロードする必要があります (bdd100k、ego4d、および panda のみが必要です)。
最後に、finetune.sh で llava_v1_5_mix665k_with_video_chatgpt72k_share4video28k.json ファイルを指定して SFT を実行し、論文の結果を再現できます。
私たちの研究があなたの研究に役立つと思われる場合は、星を付けたり引用したりすることを検討してください。
@article { chen2024sharegpt4video ,
title = { ShareGPT4Video: Improving Video Understanding and Generation with Better Captions } ,
author = { Chen, Lin and Wei, Xilin and Li, Jinsong and Dong, Xiaoyi and Zhang, Pan and Zang, Yuhang and Chen, Zehui and Duan, Haodong and Lin, Bin and Tang, Zhenyu and others } ,
journal = { arXiv preprint arXiv:2406.04325 } ,
year = { 2024 }
}
@article { chen2023sharegpt4v ,
title = { ShareGPT4V: Improving Large Multi-Modal Models with Better Captions } ,
author = { Chen, Lin and Li, Jisong and Dong, Xiaoyi and Zhang, Pan and He, Conghui and Wang, Jiaqi and Zhao, Feng and Lin, Dahua } ,
journal = { arXiv preprint arXiv:2311.12793 } ,
year = { 2023 }
}
@article { chen2024we ,
title = { Are We on the Right Way for Evaluating Large Vision-Language Models? } ,
author = { Chen, Lin and Li, Jinsong and Dong, Xiaoyi and Zhang, Pan and Zang, Yuhang and Chen, Zehui and Duan, Haodong and Wang, Jiaqi and Qiao, Yu and Lin, Dahua and others } ,
journal = { arXiv preprint arXiv:2403.20330 } ,
year = { 2024 }
}