️ Nos séries fonctionnent : [ MMStar ] [ ShareGPT4V ] [ ShareGPT4Omni ]
Implémentation officielle de ShareGPT4Video : améliorer la compréhension et la génération de vidéos avec de meilleurs sous-titres .
Voici une vidéo pour présenter clairement ShareGPT4Video :
[2024/10/1] ShareGPT4Video a été accepté par la piste D&B NeurIPS 2024 !
[2024/7/1] Le code sur l'inférence par lots de ShareCaptioner-Video est maintenant disponible !
[2024/6/11] La démo web et la démo locale de ShareCaptioner-Video sont disponibles dès maintenant !
[2024/6/11] La démo web et la démo locale de ShareGPT4Video-8B sont disponibles dès maintenant !
[2024/6/7] Notre article a été présenté sous le titre HuggingFace Daily Papers et classé 1er sur 6,7.
[2024/5/27] Le modèle ShareGPT4Video-8B est sorti !
[2024/5/26] L'ensemble de données et la page du projet ShareGPT4Video sont publiés !
Vous pouvez directement utiliser notre modèle ShareGPT4Video pour discuter avec votre propre vidéo par la commande suivante :
python run.py --model-path Lin-Chen/sharegpt4video-8b --video examples/yoga.mp4 --query Describe this video in detail.
Ou vous pouvez créer votre démo locale pour profiter de notre ShareGPT4Video-8B avec la commande suivante :
python app.py
Vous pouvez créer votre démo locale pour profiter de notre ShareCaptioner-Video avec la commande suivante :
cd captioner
python app.py
git clone https://github.com/ShareGPT4Omni/ShareGPT4Video
conda create -n share4video python=3.10 -y
conda activate share4video
cd ShareGPT4Video
pip install --upgrade pip
pip install -e .
pip install -e " .[train] "
pip install flash-attn --no-build-isolation
Valider l'efficacité des sous-titres vidéo de haute qualité pour contribuer à améliorer les capacités de compréhension des LVLM. Nous choisissons les modèles VideoLLaVA et LLaMA-VID comme références. Les données SFT utilisées pour les deux modèles sont des données d'image LLaVA-mix665K plus des données vidéo VideoChatGPT-100K. Nous remplaçons les données de sous-titres 28K dans VideoChatGPT-100K par des données de sous-titres 28K de haute qualité de ShareGPT4Video. Ensuite, nous prenons VideoLLaVA comme exemple.
Vous devez d'abord suivre les instructions de VideoLLaVA pour préparer les images et les vidéos, puis télécharger les vidéos 28K utilisées dans ShareGPT4Video depuis HuggingFace (implique uniquement bdd100k, ego4d et panda).
Enfin, vous pouvez spécifier le fichier llava_v1_5_mix665k_with_video_chatgpt72k_share4video28k.json dans finetune.sh pour effectuer le SFT afin de reproduire les résultats dans l'article.
Si vous trouvez notre travail utile pour votre recherche, pensez à donner une étoile et une citation
@article { chen2024sharegpt4video ,
title = { ShareGPT4Video: Improving Video Understanding and Generation with Better Captions } ,
author = { Chen, Lin and Wei, Xilin and Li, Jinsong and Dong, Xiaoyi and Zhang, Pan and Zang, Yuhang and Chen, Zehui and Duan, Haodong and Lin, Bin and Tang, Zhenyu and others } ,
journal = { arXiv preprint arXiv:2406.04325 } ,
year = { 2024 }
}
@article { chen2023sharegpt4v ,
title = { ShareGPT4V: Improving Large Multi-Modal Models with Better Captions } ,
author = { Chen, Lin and Li, Jisong and Dong, Xiaoyi and Zhang, Pan and He, Conghui and Wang, Jiaqi and Zhao, Feng and Lin, Dahua } ,
journal = { arXiv preprint arXiv:2311.12793 } ,
year = { 2023 }
}
@article { chen2024we ,
title = { Are We on the Right Way for Evaluating Large Vision-Language Models? } ,
author = { Chen, Lin and Li, Jinsong and Dong, Xiaoyi and Zhang, Pan and Zang, Yuhang and Chen, Zehui and Duan, Haodong and Wang, Jiaqi and Qiao, Yu and Lin, Dahua and others } ,
journal = { arXiv preprint arXiv:2403.20330 } ,
year = { 2024 }
}