️ Nuestra serie funciona: [ MMStar ] [ ShareGPT4V ] [ ShareGPT4Omni ]
Implementación oficial de ShareGPT4Video: mejora de la comprensión y generación de videos con mejores subtítulos .
Aquí hay un video para presentar ShareGPT4Video claramente:
[2024/10/1] ¡ShareGPT4Video fue aceptado por la pista NeurIPS 2024 D&B!
[2024/7/1] ¡ El código sobre la inferencia por lotes de ShareCaptioner-Video ya está disponible!
[2024/6/11] ¡ La demostración web y la demostración local de ShareCaptioner-Video ya están disponibles!
[2024/6/11] ¡ La demostración web y la demostración local de ShareGPT4Video-8B ya están disponibles!
[2024/6/7] Nuestro periódico apareció como HuggingFace Daily Papers y ocupó el primer lugar en 6.7.
[2024/5/27] ¡Se lanza el modelo ShareGPT4Video-8B!
[2024/5/26] ¡Se publican el conjunto de datos ShareGPT4Video y la página del proyecto!
Puede usar directamente nuestro modelo ShareGPT4Video para conversar con su propio video con el siguiente comando:
python run.py --model-path Lin-Chen/sharegpt4video-8b --video examples/yoga.mp4 --query Describe this video in detail.
O puede crear su demostración local para disfrutar de nuestro ShareGPT4Video-8B con el siguiente comando:
python app.py
Puede crear su demostración local para disfrutar de nuestro ShareCaptioner-Video con el siguiente comando:
cd captioner
python app.py
git clone https://github.com/ShareGPT4Omni/ShareGPT4Video
conda create -n share4video python=3.10 -y
conda activate share4video
cd ShareGPT4Video
pip install --upgrade pip
pip install -e .
pip install -e " .[train] "
pip install flash-attn --no-build-isolation
Validar la eficacia de los subtítulos de vídeo de alta calidad para ayudar a mejorar las capacidades de comprensión de los LVLM. Elegimos los modelos VideoLLaVA y LLaMA-VID como base. Los datos SFT utilizados para ambos modelos son datos de imagen LLaVA-mix665K más datos de video VideoChatGPT-100K. Reemplazamos datos de subtítulos de 28K en VideoChatGPT-100K con datos de subtítulos de alta calidad de 28K de ShareGPT4Video. A continuación, tomamos VideoLLaVA como ejemplo.
Primero debe seguir las instrucciones en VideoLLaVA para preparar las imágenes y los videos, luego descargar los videos de 28K utilizados en ShareGPT4Video desde HuggingFace (solo involucra bdd100k, ego4d y panda).
Finalmente, puede especificar el archivo llava_v1_5_mix665k_with_video_chatgpt72k_share4video28k.json en finetune.sh para realizar el SFT y reproducir los resultados en el documento.
Si encuentra útil nuestro trabajo para su investigación, considere otorgar una estrella y una cita.
@article { chen2024sharegpt4video ,
title = { ShareGPT4Video: Improving Video Understanding and Generation with Better Captions } ,
author = { Chen, Lin and Wei, Xilin and Li, Jinsong and Dong, Xiaoyi and Zhang, Pan and Zang, Yuhang and Chen, Zehui and Duan, Haodong and Lin, Bin and Tang, Zhenyu and others } ,
journal = { arXiv preprint arXiv:2406.04325 } ,
year = { 2024 }
}
@article { chen2023sharegpt4v ,
title = { ShareGPT4V: Improving Large Multi-Modal Models with Better Captions } ,
author = { Chen, Lin and Li, Jisong and Dong, Xiaoyi and Zhang, Pan and He, Conghui and Wang, Jiaqi and Zhao, Feng and Lin, Dahua } ,
journal = { arXiv preprint arXiv:2311.12793 } ,
year = { 2023 }
}
@article { chen2024we ,
title = { Are We on the Right Way for Evaluating Large Vision-Language Models? } ,
author = { Chen, Lin and Li, Jinsong and Dong, Xiaoyi and Zhang, Pan and Zang, Yuhang and Chen, Zehui and Duan, Haodong and Wang, Jiaqi and Qiao, Yu and Lin, Dahua and others } ,
journal = { arXiv preprint arXiv:2403.20330 } ,
year = { 2024 }
}