تنزيل ShareGPT4Video - تنزيل كود مصدر ShareGPT4Video

ShareGPT4Video

شفرة المصدر الأخرى

1.0.0

تنزيل

ShareGPT4Video: تحسين فهم الفيديو وإنشاءه باستخدام تسميات توضيحية أفضل

️ سلسلتنا تعمل: [ MMStar ] [ ShareGPT4V ] [ ShareGPT4Omni ]

التنفيذ الرسمي لـ ShareGPT4Video: تحسين فهم الفيديو وإنشاءه باستخدام تسميات توضيحية أفضل .

إليك مقطع فيديو لتقديم ShareGPT4Video بشكل واضح:

demo_clip_v2.mp4

المؤلفون : لين تشن*، شيلين وي* جينسونغ لي*، شياويى دونغ، بان تشانغ، يوهانغ زانغ، زيهوي تشن، هاودونغ دوان، بن لين، تشن يو تانغ، لي يوان، يو تشياو، داهوا لين، فنغ تشاو؟، جياكي وانغ؟
المعاهد : جامعة العلوم والتكنولوجيا في الصين؛ الجامعة الصينية في هونغ كونغ؛ جامعة بكين؛ مختبر شنغهاي للذكاء الاصطناعي
الموارد : [الورقة] [صفحة المشروع] [مجموعة بيانات ShareGPT4Video] [Colab]
النماذج : [؟ShareGPT4Video-8B] [؟ShareCaptioner-Video]
العرض التوضيحي : [؟ShareGPT4Video-8B] [؟ShareCaptioner-Video]

أبرز

مجموعة بيانات نص فيديو وصفية واسعة النطاق ، و 40 ألف تعليق فيديو تم إنشاؤه بواسطة GPT4-Vision، وحوالي 400 ألف تعليق ضمني مقسم للفيديو.
معلق فيديو عام لمختلف فترات الفيديو، ودرجات الدقة، ونسب العرض إلى الارتفاع ، يقترب من قدرة التسمية التوضيحية لـ GPT4-Vision، ويتميز بوضعين للاستدلال يستهدفان الجودة والكفاءة، بشكل منفصل.
نموذج لغة فيديو كبير ومتفوق ShareGPT4Video-8B ، يستمر لمدة 5 ساعات على وحدات معالجة الرسومات 8xA100 للتدريب على التوالي.
تحسين أداء تحويل النص إلى فيديو من خلال التسميات التوضيحية للفيديو عالية الجودة التي تم إنشاؤها بواسطة ShareCaptioner-Video. بفضل خطة Open-Sora.

أخبار

[2024/10/1] تم قبول ShareGPT4Video بواسطة مسار NeurIPS 2024 D&B!

[2024/7/1] الكود الخاص بالاستدلال الدفعي لـ ShareCaptioner-Video متاح الآن!

[2024/6/11] العرض التوضيحي على الويب والعرض التوضيحي المحلي لـ ShareCaptioner-Video متاحان الآن!

[2024/6/11] العرض التوضيحي على الويب والعرض التوضيحي المحلي لـ ShareGPT4Video-8B متاحان الآن!

[2024/6/7] تم تصنيف ورقتنا على أنها HuggingFace Daily Papers واحتلت المرتبة الأولى في 6.7.

[2024/5/27] تم إصدار نموذج ShareGPT4Video-8B!

[2024/5/26] تم إصدار مجموعة بيانات ShareGPT4Video وصفحة المشروع!

‍ تودو

كود التدريب لـ ShareGPT4Video-8B
رمز الاستدلال الدفعي لـ ShareCaptioner-Video
العرض التوضيحي على الويب والعرض التوضيحي المحلي لـ ShareCaptioner-Video
عرض توضيحي على الويب وعرض توضيحي محلي لـ ShareGPT4Video-8B
نقاط التفتيش في ShareGPT4Video-8B

الاستخدام السريع

يمكنك استخدام نموذج ShareGPT4Video مباشرة للمحادثة مع الفيديو الخاص بك عن طريق الأمر التالي:

 python run.py --model-path Lin-Chen/sharegpt4video-8b --video examples/yoga.mp4 --query Describe this video in detail.

أو يمكنك إنشاء العرض التوضيحي المحلي الخاص بك للاستمتاع بـ ShareGPT4Video-8B باستخدام الأمر التالي:

 python app.py

يمكنك إنشاء العرض التوضيحي المحلي الخاص بك للاستمتاع بـ ShareCaptioner-Video باستخدام الأمر التالي:

 cd captioner

python app.py

ثَبَّتَ

git clone https://github.com/ShareGPT4Omni/ShareGPT4Video
conda create -n share4video python=3.10 -y
conda activate share4video

cd ShareGPT4Video
pip install --upgrade pip
pip install -e .
pip install -e " .[train] "
pip install flash-attn --no-build-isolation

يدرب

للتحقق من فعالية التسميات التوضيحية للفيديو عالية الجودة للمساعدة في تحسين قدرات الفهم لدى LVLMs. نختار طرازي VideoLLaVA وLLaMA-VID كخطوط أساسية لدينا. بيانات SFT المستخدمة لكلا النموذجين هي بيانات صورة LLaVA-mix665K بالإضافة إلى بيانات فيديو VideoChatGPT-100K. نحن نستبدل بيانات التسميات التوضيحية التي يبلغ حجمها 28 ألفًا في VideoChatGPT-100K ببيانات التسميات التوضيحية عالية الجودة التي يبلغ حجمها 28 ألفًا من ShareGPT4Video. بعد ذلك، نأخذ VideoLLaVA كمثال.

يتعين عليك اتباع الإرشادات الموجودة في VideoLLaVA لإعداد الصور ومقاطع الفيديو أولاً، ثم تنزيل مقاطع الفيديو بحجم 28 ألف المستخدمة في ShareGPT4Video من HuggingFace (تتضمن فقط bdd100k وego4d وpanda).

أخيرًا، يمكنك تحديد الملف llava_v1_5_mix665k_with_video_chatgpt72k_share4video28k.json في الملف Finetune.sh لإجراء SFT لإعادة إنتاج النتائج في الورقة.

✒️ الاقتباس

إذا وجدت عملنا مفيدًا لبحثك، فيرجى التفكير في منح نجمة واستشهادًا

 @article { chen2024sharegpt4video ,
  title = { ShareGPT4Video: Improving Video Understanding and Generation with Better Captions } ,
  author = { Chen, Lin and Wei, Xilin and Li, Jinsong and Dong, Xiaoyi and Zhang, Pan and Zang, Yuhang and Chen, Zehui and Duan, Haodong and Lin, Bin and Tang, Zhenyu and others } ,
  journal = { arXiv preprint arXiv:2406.04325 } ,
  year = { 2024 }
}

@article { chen2023sharegpt4v ,
  title = { ShareGPT4V: Improving Large Multi-Modal Models with Better Captions } ,
  author = { Chen, Lin and Li, Jisong and Dong, Xiaoyi and Zhang, Pan and He, Conghui and Wang, Jiaqi and Zhao, Feng and Lin, Dahua } ,
  journal = { arXiv preprint arXiv:2311.12793 } ,
  year = { 2023 }
}

@article { chen2024we ,
  title = { Are We on the Right Way for Evaluating Large Vision-Language Models? } ,
  author = { Chen, Lin and Li, Jinsong and Dong, Xiaoyi and Zhang, Pan and Zang, Yuhang and Chen, Zehui and Duan, Haodong and Wang, Jiaqi and Qiao, Yu and Lin, Dahua and others } ,
  journal = { arXiv preprint arXiv:2403.20330 } ,
  year = { 2024 }
}

❤️ شكر وتقدير

LLaVA: قاعدة التعليمات البرمجية التي بنينا عليها. شكرا لعملهم الرائع.
Open-Sora-Plan: قاعدة تعليمات برمجية ممتازة مفتوحة المصدر لتنفيذ تحويل النص إلى فيديو مثل Sora. شكرا لعملهم الرائع.
Open-LLaVA-NeXT: قاعدة تعليمات برمجية مفتوحة المصدر لإعادة إنتاج إجراءات التدريب لسلسلة LLaVA-NeXT.

يوسع

معلومات إضافية

الإصدار 1.0.0
النوع شفرة المصدر الأخرى
وقت التحديث 2024-12-06
الحجم 7.91MB
من Github

تطبيقات ذات صلة

waymo open dataset

2024-11-18
SmartTube

2024-12-14
Sunamu

2024-12-14
MySchedule.py

2024-12-15
viptools for eslam

2024-12-15
VITAident

2024-12-15

نوصي لك

chat.petals.dev

شفرة المصدر الأخرى

1.0.0
GPT Prompt Templates

شفرة المصدر الأخرى

1.0.0
GPTyped

شفرة المصدر الأخرى

GPTyped 1.0.5
waymo open dataset

شفرة المصدر الأخرى

December 2023 Update
SmartTube

شفرة المصدر الأخرى

24.71 Stable
Sunamu

شفرة المصدر الأخرى

Release 2.2.0
waymo open dataset

شفرة المصدر الأخرى

December 2023 Update
wp functions

فئات أخرى

1.0.0
termwind

فئات أخرى

v2.3.0

أخبار ذات صلة الكل