ShareGPT4Video ดาวน์โหลด - ดาวน์โหลดซอร์สโค้ด ShareGPT4Video

ShareGPT4Video

ซอร์สโค้ดอื่น ๆ

1.0.0

ดาวน์โหลด

ShareGPT4Video: การปรับปรุงความเข้าใจและการสร้างวิดีโอด้วยคำบรรยายที่ดีขึ้น

️ ผลงานซีรีส์ของเรา: [ MMStar ] [ ShareGPT4V ] [ ShareGPT4Omni ]

การใช้งาน ShareGPT4Video อย่างเป็นทางการ: การปรับปรุงความเข้าใจและการสร้างวิดีโอด้วยคำบรรยายที่ดีกว่า

นี่คือวิดีโอสำหรับแนะนำ ShareGPT4Video อย่างชัดเจน:

demo_clip_v2.mp4

ผู้แต่ง : Lin Chen*, Xilin Wei* Jinsong Li*, Xiaoyi Dong, Pan Zhang, Yuhang Zang, Zehui Chen, Haodong Duan, Bin Lin, Zhenyu Tang, Li Yuan, Yu Qiao, Dahua Lin, Feng Zhao?, Jiaqi Wang ?
สถาบัน : มหาวิทยาลัยวิทยาศาสตร์และเทคโนโลยีแห่งประเทศจีน; มหาวิทยาลัยจีนแห่งฮ่องกง; มหาวิทยาลัยปักกิ่ง; ห้องปฏิบัติการ AI เซี่ยงไฮ้
แหล่งข้อมูล : [กระดาษ] [หน้าโครงการ] [ชุดข้อมูล ShareGPT4Video] [Colab]
รุ่น : [?ShareGPT4Video-8B] [?ShareCaptioner-Video]
การสาธิต : [?ShareGPT4Video-8B] [?ShareCaptioner-Video]

ไฮไลท์

ชุดข้อมูลข้อความวิดีโอ ที่มีคำอธิบายสูง ขนาดใหญ่ คำบรรยายวิดีโอที่สร้างโดย GPT4 ขนาด 40,000 GPT4 และคำบรรยายแบบแยกวิดีโอโดยนัยประมาณ 400,000 รายการ
ตัวสร้างคำบรรยายวิดีโอทั่วไปสำหรับระยะเวลา วิดีโอ ความละเอียด และอัตราส่วนภาพต่างๆ ใกล้เคียงกับความสามารถด้านคำบรรยายของ GPT4-Vision โดยมีโหมดการอนุมานสองโหมดที่กำหนดเป้าหมายไปที่คุณภาพและประสิทธิภาพ โดยแยกจากกัน
โมเดลภาษาวิดีโอขนาดใหญ่ที่เหนือกว่า ShareGPT4Video-8B ใช้งานได้ยาวนาน 5 ชั่วโมง บน GPU 8xA100 ตามลำดับ
การปรับปรุงประสิทธิภาพการแปลงข้อความเป็นวิดีโอ ด้วยคำบรรยายวิดีโอคุณภาพสูงที่สร้างโดย ShareCaptioner-Video ของเรา ขอขอบคุณ Open-Sora-Plan

ข่าว

[10/2024/10] ShareGPT4Video ได้รับการยอมรับจากแทร็ก NeurIPS 2024 D&B!

[1/7/2024] รหัสเกี่ยวกับการอนุมานแบบกลุ่มของ ShareCaptioner-Video พร้อมใช้งานแล้ว!

[11/06/2024] การสาธิตเว็บและการสาธิตในเครื่องของ ShareCaptioner-Video พร้อมให้ใช้งานแล้ว!

[11/06/2024] การสาธิตเว็บและการสาธิตในเครื่องของ ShareGPT4Video-8B พร้อมให้ใช้งานแล้ว!

[7/6/2024] บทความของเราได้รับการนำเสนอเป็น HuggingFace Daily Papers และติดอันดับ 1 ใน 6.7

[2024/5/27] รุ่น ShareGPT4Video-8B เปิดตัวแล้ว!

[26/05/2024] ชุดข้อมูล ShareGPT4Video และหน้าโปรเจ็กต์เปิดตัวแล้ว!

?‍ สิ่งที่ต้องทำ

รหัสการฝึกอบรมสำหรับ ShareGPT4Video-8B
รหัสการอนุมานเป็นกลุ่มสำหรับ ShareCaptioner-Video
การสาธิตเว็บและการสาธิตในเครื่องของ ShareCaptioner-Video
การสาธิตเว็บและการสาธิตในเครื่องของ ShareGPT4Video-8B
จุดตรวจของ ShareGPT4Video-8B

การใช้งานที่รวดเร็ว

คุณสามารถใช้โมเดล ShareGPT4Video ของเราเพื่อสนทนากับวิดีโอของคุณเองได้โดยตรงด้วยคำสั่งต่อไปนี้:

 python run.py --model-path Lin-Chen/sharegpt4video-8b --video examples/yoga.mp4 --query Describe this video in detail.

หรือคุณสามารถสร้างการสาธิตในพื้นที่ของคุณเพื่อเพลิดเพลินกับ ShareGPT4Video-8B ของเราด้วยคำสั่งต่อไปนี้:

 python app.py

คุณสามารถสร้างการสาธิตในพื้นที่ของคุณเพื่อเพลิดเพลินกับ ShareCaptioner-Video ของเราได้ด้วยคำสั่งต่อไปนี้:

 cd captioner

python app.py

ติดตั้ง

git clone https://github.com/ShareGPT4Omni/ShareGPT4Video
conda create -n share4video python=3.10 -y
conda activate share4video

cd ShareGPT4Video
pip install --upgrade pip
pip install -e .
pip install -e " .[train] "
pip install flash-attn --no-build-isolation

รถไฟ

เพื่อตรวจสอบประสิทธิภาพของคำบรรยายวิดีโอคุณภาพสูงเพื่อช่วยปรับปรุงความสามารถในการทำความเข้าใจของ LVLM เราเลือกรุ่น VideoLLaVA และ LLaMA-VID เป็นพื้นฐานของเรา ข้อมูล SFT ที่ใช้สำหรับทั้งสองรุ่นคือข้อมูลภาพ LLaVA-mix665K บวกกับข้อมูลวิดีโอ VideoChatGPT-100K เราแทนที่ข้อมูลคำบรรยาย 28K ใน VideoChatGPT-100K ด้วยข้อมูลคำบรรยายคุณภาพสูง 28K จาก ShareGPT4Video ต่อไป เราใช้ VideoLLaVA เป็นตัวอย่าง

คุณต้องปฏิบัติตามคำแนะนำใน VideoLLaVA เพื่อเตรียมรูปภาพและวิดีโอก่อน จากนั้นจึงดาวน์โหลดวิดีโอ 28K ที่ใช้ใน ShareGPT4Video จาก HuggingFace (เกี่ยวข้องกับ bdd100k, ego4d และ panda เท่านั้น)

สุดท้าย คุณสามารถระบุไฟล์ llava_v1_5_mix665k_with_video_chatgpt72k_share4video28k.json ใน finetune.sh เพื่อดำเนินการ SFT เพื่อสร้างผลลัพธ์ในรายงาน

✒️การอ้างอิง

หากคุณพบว่างานของเรามีประโยชน์สำหรับการวิจัยของคุณ โปรดพิจารณาให้ดาวและการอ้างอิง

 @article { chen2024sharegpt4video ,
  title = { ShareGPT4Video: Improving Video Understanding and Generation with Better Captions } ,
  author = { Chen, Lin and Wei, Xilin and Li, Jinsong and Dong, Xiaoyi and Zhang, Pan and Zang, Yuhang and Chen, Zehui and Duan, Haodong and Lin, Bin and Tang, Zhenyu and others } ,
  journal = { arXiv preprint arXiv:2406.04325 } ,
  year = { 2024 }
}

@article { chen2023sharegpt4v ,
  title = { ShareGPT4V: Improving Large Multi-Modal Models with Better Captions } ,
  author = { Chen, Lin and Li, Jisong and Dong, Xiaoyi and Zhang, Pan and He, Conghui and Wang, Jiaqi and Zhao, Feng and Lin, Dahua } ,
  journal = { arXiv preprint arXiv:2311.12793 } ,
  year = { 2023 }
}

@article { chen2024we ,
  title = { Are We on the Right Way for Evaluating Large Vision-Language Models? } ,
  author = { Chen, Lin and Li, Jinsong and Dong, Xiaoyi and Zhang, Pan and Zang, Yuhang and Chen, Zehui and Duan, Haodong and Wang, Jiaqi and Qiao, Yu and Lin, Dahua and others } ,
  journal = { arXiv preprint arXiv:2403.20330 } ,
  year = { 2024 }
}

❤️รับทราบ

LLaVA: โค้ดเบสที่เราสร้างขึ้น ขอบคุณสำหรับการทำงานที่ยอดเยี่ยมของพวกเขา
Open-Sora-Plan: โค้ดเบสโอเพ่นซอร์สที่ยอดเยี่ยมสำหรับการใช้งานข้อความเป็นวิดีโอที่เหมือนกับ Sora ขอบคุณสำหรับการทำงานที่ยอดเยี่ยมของพวกเขา
Open-LLaVA-NeXT: โค้ดเบสโอเพ่นซอร์สสำหรับการสร้างขั้นตอนการฝึกอบรมของซีรีส์ LLaVA-NeXT ขึ้นมาใหม่

ขยาย

ข้อมูลเพิ่มเติม

เวอร์ชัน 1.0.0
ประเภท ซอร์สโค้ดอื่น ๆ
เวลาอัปเดต 2024-12-06
ขนาด 7.91MB
มาจาก Github

แอปที่เกี่ยวข้อง

waymo open dataset

2024-11-18
SmartTube

2024-12-14
Sunamu

2024-12-14
MySchedule.py

2024-12-15
viptools for eslam

2024-12-15
VITAident

2024-12-15

แนะนำสำหรับคุณ

chat.petals.dev

ซอร์สโค้ดอื่น ๆ

1.0.0
GPT Prompt Templates

ซอร์สโค้ดอื่น ๆ

1.0.0
GPTyped

ซอร์สโค้ดอื่น ๆ

GPTyped 1.0.5
waymo open dataset

ซอร์สโค้ดอื่น ๆ

December 2023 Update
SmartTube

ซอร์สโค้ดอื่น ๆ

24.71 Stable
Sunamu

ซอร์สโค้ดอื่น ๆ

Release 2.2.0
waymo open dataset

ซอร์สโค้ดอื่น ๆ

December 2023 Update
wp functions

หมวดหมู่อื่นๆ

1.0.0
termwind

หมวดหมู่อื่นๆ

v2.3.0

ข้อมูลที่เกี่ยวข้อง ทั้งหมด