️ سلسلتنا تعمل: [ MMStar ] [ ShareGPT4V ] [ ShareGPT4Omni ]
التنفيذ الرسمي لـ ShareGPT4Video: تحسين فهم الفيديو وإنشاءه باستخدام تسميات توضيحية أفضل .
إليك مقطع فيديو لتقديم ShareGPT4Video بشكل واضح:
[2024/10/1] تم قبول ShareGPT4Video بواسطة مسار NeurIPS 2024 D&B!
[2024/7/1] الكود الخاص بالاستدلال الدفعي لـ ShareCaptioner-Video متاح الآن!
[2024/6/11] العرض التوضيحي على الويب والعرض التوضيحي المحلي لـ ShareCaptioner-Video متاحان الآن!
[2024/6/11] العرض التوضيحي على الويب والعرض التوضيحي المحلي لـ ShareGPT4Video-8B متاحان الآن!
[2024/6/7] تم تصنيف ورقتنا على أنها HuggingFace Daily Papers واحتلت المرتبة الأولى في 6.7.
[2024/5/27] تم إصدار نموذج ShareGPT4Video-8B!
[2024/5/26] تم إصدار مجموعة بيانات ShareGPT4Video وصفحة المشروع!
يمكنك استخدام نموذج ShareGPT4Video مباشرة للمحادثة مع الفيديو الخاص بك عن طريق الأمر التالي:
python run.py --model-path Lin-Chen/sharegpt4video-8b --video examples/yoga.mp4 --query Describe this video in detail.
أو يمكنك إنشاء العرض التوضيحي المحلي الخاص بك للاستمتاع بـ ShareGPT4Video-8B باستخدام الأمر التالي:
python app.py
يمكنك إنشاء العرض التوضيحي المحلي الخاص بك للاستمتاع بـ ShareCaptioner-Video باستخدام الأمر التالي:
cd captioner
python app.py
git clone https://github.com/ShareGPT4Omni/ShareGPT4Video
conda create -n share4video python=3.10 -y
conda activate share4video
cd ShareGPT4Video
pip install --upgrade pip
pip install -e .
pip install -e " .[train] "
pip install flash-attn --no-build-isolation
للتحقق من فعالية التسميات التوضيحية للفيديو عالية الجودة للمساعدة في تحسين قدرات الفهم لدى LVLMs. نختار طرازي VideoLLaVA وLLaMA-VID كخطوط أساسية لدينا. بيانات SFT المستخدمة لكلا النموذجين هي بيانات صورة LLaVA-mix665K بالإضافة إلى بيانات فيديو VideoChatGPT-100K. نحن نستبدل بيانات التسميات التوضيحية التي يبلغ حجمها 28 ألفًا في VideoChatGPT-100K ببيانات التسميات التوضيحية عالية الجودة التي يبلغ حجمها 28 ألفًا من ShareGPT4Video. بعد ذلك، نأخذ VideoLLaVA كمثال.
يتعين عليك اتباع الإرشادات الموجودة في VideoLLaVA لإعداد الصور ومقاطع الفيديو أولاً، ثم تنزيل مقاطع الفيديو بحجم 28 ألف المستخدمة في ShareGPT4Video من HuggingFace (تتضمن فقط bdd100k وego4d وpanda).
أخيرًا، يمكنك تحديد الملف llava_v1_5_mix665k_with_video_chatgpt72k_share4video28k.json في الملف Finetune.sh لإجراء SFT لإعادة إنتاج النتائج في الورقة.
إذا وجدت عملنا مفيدًا لبحثك، فيرجى التفكير في منح نجمة واستشهادًا
@article { chen2024sharegpt4video ,
title = { ShareGPT4Video: Improving Video Understanding and Generation with Better Captions } ,
author = { Chen, Lin and Wei, Xilin and Li, Jinsong and Dong, Xiaoyi and Zhang, Pan and Zang, Yuhang and Chen, Zehui and Duan, Haodong and Lin, Bin and Tang, Zhenyu and others } ,
journal = { arXiv preprint arXiv:2406.04325 } ,
year = { 2024 }
}
@article { chen2023sharegpt4v ,
title = { ShareGPT4V: Improving Large Multi-Modal Models with Better Captions } ,
author = { Chen, Lin and Li, Jisong and Dong, Xiaoyi and Zhang, Pan and He, Conghui and Wang, Jiaqi and Zhao, Feng and Lin, Dahua } ,
journal = { arXiv preprint arXiv:2311.12793 } ,
year = { 2023 }
}
@article { chen2024we ,
title = { Are We on the Right Way for Evaluating Large Vision-Language Models? } ,
author = { Chen, Lin and Li, Jinsong and Dong, Xiaoyi and Zhang, Pan and Zang, Yuhang and Chen, Zehui and Duan, Haodong and Wang, Jiaqi and Qiao, Yu and Lin, Dahua and others } ,
journal = { arXiv preprint arXiv:2403.20330 } ,
year = { 2024 }
}