️ ผลงานซีรีส์ของเรา: [ MMStar ] [ ShareGPT4V ] [ ShareGPT4Omni ]
การใช้งาน ShareGPT4Video อย่างเป็นทางการ: การปรับปรุงความเข้าใจและการสร้างวิดีโอด้วยคำบรรยายที่ดีกว่า
นี่คือวิดีโอสำหรับแนะนำ ShareGPT4Video อย่างชัดเจน:
[10/2024/10] ShareGPT4Video ได้รับการยอมรับจากแทร็ก NeurIPS 2024 D&B!
[1/7/2024] รหัสเกี่ยวกับการอนุมานแบบกลุ่มของ ShareCaptioner-Video พร้อมใช้งานแล้ว!
[11/06/2024] การสาธิตเว็บและการสาธิตในเครื่องของ ShareCaptioner-Video พร้อมให้ใช้งานแล้ว!
[11/06/2024] การสาธิตเว็บและการสาธิตในเครื่องของ ShareGPT4Video-8B พร้อมให้ใช้งานแล้ว!
[7/6/2024] บทความของเราได้รับการนำเสนอเป็น HuggingFace Daily Papers และติดอันดับ 1 ใน 6.7
[2024/5/27] รุ่น ShareGPT4Video-8B เปิดตัวแล้ว!
[26/05/2024] ชุดข้อมูล ShareGPT4Video และหน้าโปรเจ็กต์เปิดตัวแล้ว!
คุณสามารถใช้โมเดล ShareGPT4Video ของเราเพื่อสนทนากับวิดีโอของคุณเองได้โดยตรงด้วยคำสั่งต่อไปนี้:
python run.py --model-path Lin-Chen/sharegpt4video-8b --video examples/yoga.mp4 --query Describe this video in detail.
หรือคุณสามารถสร้างการสาธิตในพื้นที่ของคุณเพื่อเพลิดเพลินกับ ShareGPT4Video-8B ของเราด้วยคำสั่งต่อไปนี้:
python app.py
คุณสามารถสร้างการสาธิตในพื้นที่ของคุณเพื่อเพลิดเพลินกับ ShareCaptioner-Video ของเราได้ด้วยคำสั่งต่อไปนี้:
cd captioner
python app.py
git clone https://github.com/ShareGPT4Omni/ShareGPT4Video
conda create -n share4video python=3.10 -y
conda activate share4video
cd ShareGPT4Video
pip install --upgrade pip
pip install -e .
pip install -e " .[train] "
pip install flash-attn --no-build-isolation
เพื่อตรวจสอบประสิทธิภาพของคำบรรยายวิดีโอคุณภาพสูงเพื่อช่วยปรับปรุงความสามารถในการทำความเข้าใจของ LVLM เราเลือกรุ่น VideoLLaVA และ LLaMA-VID เป็นพื้นฐานของเรา ข้อมูล SFT ที่ใช้สำหรับทั้งสองรุ่นคือข้อมูลภาพ LLaVA-mix665K บวกกับข้อมูลวิดีโอ VideoChatGPT-100K เราแทนที่ข้อมูลคำบรรยาย 28K ใน VideoChatGPT-100K ด้วยข้อมูลคำบรรยายคุณภาพสูง 28K จาก ShareGPT4Video ต่อไป เราใช้ VideoLLaVA เป็นตัวอย่าง
คุณต้องปฏิบัติตามคำแนะนำใน VideoLLaVA เพื่อเตรียมรูปภาพและวิดีโอก่อน จากนั้นจึงดาวน์โหลดวิดีโอ 28K ที่ใช้ใน ShareGPT4Video จาก HuggingFace (เกี่ยวข้องกับ bdd100k, ego4d และ panda เท่านั้น)
สุดท้าย คุณสามารถระบุไฟล์ llava_v1_5_mix665k_with_video_chatgpt72k_share4video28k.json ใน finetune.sh เพื่อดำเนินการ SFT เพื่อสร้างผลลัพธ์ในรายงาน
หากคุณพบว่างานของเรามีประโยชน์สำหรับการวิจัยของคุณ โปรดพิจารณาให้ดาวและการอ้างอิง
@article { chen2024sharegpt4video ,
title = { ShareGPT4Video: Improving Video Understanding and Generation with Better Captions } ,
author = { Chen, Lin and Wei, Xilin and Li, Jinsong and Dong, Xiaoyi and Zhang, Pan and Zang, Yuhang and Chen, Zehui and Duan, Haodong and Lin, Bin and Tang, Zhenyu and others } ,
journal = { arXiv preprint arXiv:2406.04325 } ,
year = { 2024 }
}
@article { chen2023sharegpt4v ,
title = { ShareGPT4V: Improving Large Multi-Modal Models with Better Captions } ,
author = { Chen, Lin and Li, Jisong and Dong, Xiaoyi and Zhang, Pan and He, Conghui and Wang, Jiaqi and Zhao, Feng and Lin, Dahua } ,
journal = { arXiv preprint arXiv:2311.12793 } ,
year = { 2023 }
}
@article { chen2024we ,
title = { Are We on the Right Way for Evaluating Large Vision-Language Models? } ,
author = { Chen, Lin and Li, Jinsong and Dong, Xiaoyi and Zhang, Pan and Zang, Yuhang and Chen, Zehui and Duan, Haodong and Wang, Jiaqi and Qiao, Yu and Lin, Dahua and others } ,
journal = { arXiv preprint arXiv:2403.20330 } ,
year = { 2024 }
}