️ Nossa série funciona: [ MMStar ] [ ShareGPT4V ] [ ShareGPT4Omni ]
Implementação oficial do ShareGPT4Video: Melhorando a compreensão e geração de vídeos com melhores legendas .
Aqui está um vídeo para apresentar claramente o ShareGPT4Video:
[2024/10/1] ShareGPT4Video foi aceito pela faixa NeurIPS 2024 D&B!
[2024/7/1] O código sobre inferência em lote do ShareCaptioner-Video já está disponível!
[2024/6/11] A demonstração na web e a demonstração local do ShareCaptioner-Video já estão disponíveis!
[2024/6/11] A demonstração na web e a demonstração local do ShareGPT4Video-8B já estão disponíveis!
[2024/6/7] Nosso jornal foi apresentado como HuggingFace Daily Papers e classificado em 1º lugar em 6,7.
[2024/5/27] O modelo ShareGPT4Video-8B é lançado!
[2024/5/26] O conjunto de dados ShareGPT4Video e a página do projeto foram lançados!
Você pode usar diretamente nosso modelo ShareGPT4Video para conversar com seu próprio vídeo através do seguinte comando:
python run.py --model-path Lin-Chen/sharegpt4video-8b --video examples/yoga.mp4 --query Describe this video in detail.
Ou você pode criar sua demonstração local para aproveitar nosso ShareGPT4Video-8B com o seguinte comando:
python app.py
Você pode criar sua demonstração local para desfrutar de nosso ShareCaptioner-Video com o seguinte comando:
cd captioner
python app.py
git clone https://github.com/ShareGPT4Omni/ShareGPT4Video
conda create -n share4video python=3.10 -y
conda activate share4video
cd ShareGPT4Video
pip install --upgrade pip
pip install -e .
pip install -e " .[train] "
pip install flash-attn --no-build-isolation
Validar a eficácia das legendas de vídeo de alta qualidade para ajudar a melhorar as capacidades de compreensão dos LVLMs. Escolhemos os modelos VideoLLaVA e LLaMA-VID como nossas linhas de base. Os dados SFT usados para ambos os modelos são dados de imagem LLaVA-mix665K mais dados de vídeo VideoChatGPT-100K. Substituímos dados de legenda de 28K no VideoChatGPT-100K por dados de legenda de alta qualidade de 28K do ShareGPT4Video. A seguir, tomamos VideoLLaVA como exemplo.
Você precisa seguir as instruções em VideoLLaVA para preparar as imagens e vídeos primeiro e, em seguida, baixar os vídeos de 28K usados no ShareGPT4Video do HuggingFace (envolve apenas bdd100k, ego4d e panda).
Finalmente, você pode especificar o arquivo llava_v1_5_mix665k_with_video_chatgpt72k_share4video28k.json no finetune.sh para realizar o SFT e reproduzir os resultados no papel.
Se você achar nosso trabalho útil para sua pesquisa, considere dar uma estrela e uma citação
@article { chen2024sharegpt4video ,
title = { ShareGPT4Video: Improving Video Understanding and Generation with Better Captions } ,
author = { Chen, Lin and Wei, Xilin and Li, Jinsong and Dong, Xiaoyi and Zhang, Pan and Zang, Yuhang and Chen, Zehui and Duan, Haodong and Lin, Bin and Tang, Zhenyu and others } ,
journal = { arXiv preprint arXiv:2406.04325 } ,
year = { 2024 }
}
@article { chen2023sharegpt4v ,
title = { ShareGPT4V: Improving Large Multi-Modal Models with Better Captions } ,
author = { Chen, Lin and Li, Jisong and Dong, Xiaoyi and Zhang, Pan and He, Conghui and Wang, Jiaqi and Zhao, Feng and Lin, Dahua } ,
journal = { arXiv preprint arXiv:2311.12793 } ,
year = { 2023 }
}
@article { chen2024we ,
title = { Are We on the Right Way for Evaluating Large Vision-Language Models? } ,
author = { Chen, Lin and Li, Jinsong and Dong, Xiaoyi and Zhang, Pan and Zang, Yuhang and Chen, Zehui and Duan, Haodong and Wang, Jiaqi and Qiao, Yu and Lin, Dahua and others } ,
journal = { arXiv preprint arXiv:2403.20330 } ,
year = { 2024 }
}