ดาวน์โหลด MiraData - ดาวน์โหลดซอร์สโค้ด MiraData

MiraData

ซอร์สโค้ดอื่น ๆ

ดาวน์โหลด

MiraData: ชุดข้อมูลวิดีโอขนาดใหญ่ที่มีระยะเวลายาวนานและคำบรรยายที่มีโครงสร้าง

ซวน จู ^1* , อี้หมิง เกา ^1* , จ้าวหยาง จาง ^1*# , ซีหยาง หยวน ¹ , ซินเทา หวาง ¹ , อ้ายหลิง เจิง, หยูซีออง, เฉียง ซู, หยิงซาน ¹
¹ ARC Lab, Tencent PCG ² มหาวิทยาลัยจีนแห่งฮ่องกง ^* ผลงานที่เท่าเทียมกัน ^# หัวหน้าโครงการ

การแนะนำ

ชุดข้อมูลวิดีโอมีบทบาทสำคัญในการสร้างวิดีโอ เช่น Sora อย่างไรก็ตาม ชุดข้อมูลข้อความ-วิดีโอที่มีอยู่มักจะขาดเมื่อต้อง จัดการกับลำดับวิดีโอขนาดยาว และ การบันทึกการเปลี่ยนภาพ เพื่อแก้ไขข้อจำกัดเหล่านี้ เราขอแนะนำ MiraData ซึ่งเป็นชุดข้อมูลวิดีโอที่ออกแบบมาโดยเฉพาะสำหรับงานสร้างวิดีโอที่มีระยะเวลายาวนาน นอกจากนี้ เพื่อประเมินความสอดคล้องชั่วคราวและความเข้มข้นของการเคลื่อนไหวในการสร้างวิดีโอได้ดีขึ้น เราขอแนะนำ MiraBench ซึ่งปรับปรุงเกณฑ์มาตรฐานที่มีอยู่โดยการเพิ่มความสม่ำเสมอของ 3D และตัวชี้วัดความแข็งแกร่งของการเคลื่อนไหวตามการติดตาม คุณสามารถหารายละเอียดเพิ่มเติมได้ในเอกสารวิจัยของเรา

คุณสมบัติที่สำคัญของ MiraData

ระยะเวลาวิดีโอที่ยาว : ต่างจากชุดข้อมูลก่อนหน้านี้ ซึ่งคลิปวิดีโอมักจะสั้นมาก (โดยทั่วไปจะน้อยกว่า 20 วินาที) MiraData มุ่งเน้นไปที่ส่วนวิดีโอที่ไม่ได้เจียระไนด้วยระยะเวลาเฉลี่ย 72 วินาที ระยะเวลาที่ขยายออกไปนี้ทำให้สามารถสร้างโมเดลเนื้อหาวิดีโอได้ครอบคลุมมากขึ้น
คำบรรยายที่มีโครงสร้าง : แต่ละวิดีโอใน MiraData จะมาพร้อมกับคำบรรยายที่มีโครงสร้าง คำอธิบายภาพเหล่านี้ให้คำอธิบายโดยละเอียดจากมุมมองที่หลากหลาย ซึ่งช่วยเพิ่มความสมบูรณ์ของชุดข้อมูล ความยาวคำบรรยายโดยเฉลี่ยคือ 318 คำ ทำให้มั่นใจได้ถึงการนำเสนอเนื้อหาวิดีโออย่างละเอียด

ข้อความแสดงแทน

ชุดข้อมูล

ไฟล์เมตา

เราเปิดตัว MiraData สี่เวอร์ชัน ซึ่งมีข้อมูล 330K, 93K, 42K, 9K

ไฟล์เมตาสำหรับ MiraData เวอร์ชันนี้มีอยู่ในชุดข้อมูล Google Drive และ HuggingFace นอกจากนี้ เพื่อความเข้าใจที่ดีขึ้นและรวดเร็วยิ่งขึ้นเกี่ยวกับองค์ประกอบเมตาไฟล์ของเรา เราจะสุ่มตัวอย่างชุดคลิปวิดีโอ 100 คลิป ซึ่งสามารถเข้าถึงได้ที่นี่ ไฟล์เมตาประกอบด้วยข้อมูลดัชนีต่อไปนี้:

clip_id : ดัชนีคลิปวิดีโอซึ่งประกอบด้วย {download_id}.{clip_id}
แหล่งที่มา : แหล่งที่มาและหมวดหมู่การดาวน์โหลดวิดีโอ
video_url : URL แหล่งวิดีโอ
video_id : รหัสวิดีโอในเว็บไซต์ต้นทาง
ความกว้าง : ความกว้างของวิดีโอ
ความสูง : ความสูงของวิดีโอ
fps : วิดีโอ fps ที่ใช้สำหรับการแยกเฟรม
วินาที : ระยะเวลาของคลิปวิดีโอ
การประทับเวลา : การประทับเวลาเริ่มต้นและสิ้นสุดของคลิปในวิดีโอต้นฉบับ (ใช้สำหรับตัดวิดีโอคลิปจากวิดีโอต้นฉบับ)
frame_number : หมายเลขเฟรมของคลิปวิดีโอ
framestamp : คลิปเริ่มต้นและสิ้นสุดเฟรมในวิดีโอต้นฉบับ
file_path : พาธของไฟล์สำหรับจัดเก็บคลิปวิดีโอ
short_caption : คำบรรยายโดยรวมสั้นๆ
Dens_caption : คำอธิบายโดยรวมที่หนาแน่น
background_caption : คำบรรยายของพื้นหลังวิดีโอ
main_object_caption : คำบรรยายของวัตถุหลักในวิดีโอ
style_caption : คำบรรยายสไตล์วิดีโอ
camera_caption : คำอธิบายการเคลื่อนไหวของกล้อง

ดาวน์โหลด

หากต้องการดาวน์โหลดวิดีโอและแยกออกเป็นคลิป ให้เริ่มด้วยการดาวน์โหลดไฟล์เมตาจาก Google Drive หรือชุดข้อมูล HuggingFace เมื่อคุณมีไฟล์เมตาแล้ว คุณสามารถใช้สคริปต์ต่อไปนี้เพื่อดาวน์โหลดตัวอย่างวิดีโอ:

 python download_data.py --meta_csv {meta file} --download_start_id {the start of download id} --download_end_id {the end of download id} --raw_video_save_dir {the path of saving raw videos} --clip_video_save_dir {the path of saving cutted video}

^{เราจะลบตัวอย่างวิดีโอออกจากชุดข้อมูล / Github / หน้าเว็บโครงการของเราตราบเท่าที่คุณต้องการ โปรดติดต่อเราเพื่อขอคำร้องขอ}

การรวบรวมและคำอธิบายประกอบ

ในการรวบรวมข้อมูล MiraData ก่อนอื่นเราจะเลือกช่อง YouTube ในสถานการณ์ที่แตกต่างกันด้วยตนเอง และรวมวิดีโอจาก HD-VILA-100M, Videovo, Pixabay และ Pexels จากนั้น วิดีโอทั้งหมดในช่องที่เกี่ยวข้องจะถูกดาวน์โหลดและแยกโดยใช้ PySceneDetect จากนั้นเราใช้โมเดลหลายแบบเพื่อต่อคลิปสั้นเข้าด้วยกันและกรองวิดีโอคุณภาพต่ำออก ต่อไปนี้เราเลือกคลิปวิดีโอที่มีระยะเวลายาว สุดท้ายเราบรรยายคลิปวิดีโอทั้งหมดโดยใช้ GPT-4V

ข้อความแสดงแทน

คำบรรยายที่มีโครงสร้าง

วิดีโอแต่ละรายการใน MiraData จะมาพร้อมกับคำบรรยายที่มีโครงสร้าง คำอธิบายภาพเหล่านี้ให้คำอธิบายโดยละเอียดจากมุมมองที่หลากหลาย ซึ่งช่วยเพิ่มความสมบูรณ์ของชุดข้อมูล

คำบรรยายหกประเภท

คำอธิบายวัตถุหลัก: อธิบายวัตถุหลักหรือหัวเรื่องในวิดีโอ รวมถึงคุณลักษณะ การกระทำ ตำแหน่ง และการเคลื่อนไหวตลอดทั้งวิดีโอ
ความเป็นมา: ให้บริบทเกี่ยวกับสภาพแวดล้อมหรือสภาพแวดล้อม รวมถึงวัตถุ สถานที่ สภาพอากาศ และเวลา
สไตล์: ครอบคลุมสไตล์ทางศิลปะ ด้านภาพและภาพถ่าย เช่น ความสมจริง ไซเบอร์พังค์ และสไตล์ภาพยนตร์
การเคลื่อนไหวของกล้อง: ให้รายละเอียดการแพนกล้อง ซูม หรือการเคลื่อนไหวอื่นๆ
คำบรรยายสั้น: บทสรุปที่กระชับซึ่งรวบรวมแก่นแท้ของวิดีโอ สร้างขึ้นโดยใช้โมเดลคำบรรยายของ Panda-70M
คำบรรยายหนาแน่น: คำอธิบายที่ซับซ้อนและละเอียดยิ่งขึ้นซึ่งสรุปคำบรรยายทั้งห้าประเภทข้างต้น

คำบรรยายด้วย GPT-4V

เราทดสอบวิธี Visual LLM แบบโอเพ่นซอร์สที่มีอยู่และ GPT-4V และพบว่าคำบรรยายของ GPT-4V แสดงความแม่นยำและความเชื่อมโยงที่ดีขึ้นในการทำความเข้าใจความหมายในแง่ของลำดับเวลา

เพื่อสร้างสมดุลระหว่างต้นทุนคำอธิบายประกอบและความถูกต้องของคำบรรยาย เราจะสุ่มตัวอย่าง 8 เฟรมสำหรับวิดีโอแต่ละรายการอย่างสม่ำเสมอ และจัดเรียงเป็นตารางขนาด 2x4 ของรูปภาพขนาดใหญ่รูปเดียว จากนั้น เราใช้โมเดลคำบรรยายของ Panda-70M เพื่ออธิบายประกอบวิดีโอแต่ละรายการด้วยคำบรรยายหนึ่งประโยค ซึ่งทำหน้าที่เป็นคำใบ้สำหรับเนื้อหาหลัก และป้อนลงในข้อความแจ้งที่ได้รับการปรับแต่งของเรา ด้วยการป้อนข้อความแจ้งที่ปรับแต่งอย่างละเอียดและรูปภาพขนาดใหญ่ 2x4 ให้กับ GPT-4V เราจึงสามารถแสดงคำบรรยายสำหรับหลายมิติได้อย่างมีประสิทธิภาพในการสนทนารอบเดียว เนื้อหาพร้อมท์เฉพาะเจาะจงสามารถพบได้ใน Caption_gpt4v.py และเรายินดีต้อนรับทุกท่านที่มีส่วนร่วมในข้อมูลข้อความและวิดีโอคุณภาพสูงยิ่งขึ้น -

สถิติความยาวข้อความของคำบรรยายแบบสั้น หนาแน่น และแบบมีโครงสร้าง

เมฆคำของคำบรรยายสั้น ๆ กลุ่มคำที่มีคำบรรยายหนาแน่น

เกณฑ์มาตรฐาน - MiraBench

เพื่อประเมินการสร้างวิดีโอที่มีขนาดยาว เราได้ออกแบบตัวชี้วัดการประเมิน 17 รายการใน MiraBench จาก 6 มุมมอง รวมถึงความสอดคล้องของเวลา ความแรงของการเคลื่อนไหวตามเวลา ความสม่ำเสมอของ 3D คุณภาพของภาพ การจัดตำแหน่งข้อความ-วิดีโอ และความสม่ำเสมอในการกระจาย ตัวชี้วัดเหล่านี้ครอบคลุมมาตรฐานการประเมินทั่วไปส่วนใหญ่ที่ใช้ในรุ่นการสร้างวิดีโอก่อนหน้าและการวัดประสิทธิภาพการแปลงข้อความเป็นวิดีโอ

ในการประเมินวิดีโอที่สร้างขึ้น โปรดตั้งค่าสภาพแวดล้อม Python ก่อนผ่าน:

 pip install torch==1.12.1+cu116 torchvision==0.13.1+cu116 torchaudio==0.12.1 --extra-index-url https://download.pytorch.org/whl/cu116
pip install -r requirements.txt

จากนั้น ดำเนินการประเมินผ่าน:

 python calculate_score.py --meta_file data/evaluation_example/meta_generated.csv --frame_dir data/evaluation_example/frames_generated --gt_meta_file data/evaluation_example/meta_gt.csv --gt_frame_dir data/evaluation_example/frames_gt --output_folder data/evaluation_example/results --ckpt_path data/ckpt --device cuda

คุณสามารถทำตามตัวอย่างใน data/evaluation_example เพื่อประเมินวิดีโอที่คุณสร้างขึ้นเอง

ข้อตกลงใบอนุญาต

โปรดดูใบอนุญาต

ชุดข้อมูล MiraData มีไว้เพื่อวัตถุประสงค์ในการให้ข้อมูลเท่านั้น ลิขสิทธิ์ยังคงอยู่กับเจ้าของดั้งเดิมของวิดีโอ
วิดีโอทั้งหมดของชุดข้อมูล MiraData ได้มาจากอินเทอร์เน็ตซึ่งไม่ใช่ทรัพย์สินของสถาบันของเรา สถาบันของเราจะไม่รับผิดชอบต่อเนื้อหาหรือความหมายของวิดีโอเหล่านี้
คุณตกลงที่จะไม่ทำซ้ำ ทำซ้ำ คัดลอก ขาย แลกเปลี่ยน ขายต่อ หรือหาประโยชน์เพื่อวัตถุประสงค์ทางการค้า ส่วนใดส่วนหนึ่งของวิดีโอ และส่วนใดส่วนหนึ่งของข้อมูลที่ได้รับ คุณตกลงที่จะไม่คัดลอก เผยแพร่ หรือแจกจ่ายส่วนใดๆ ของชุดข้อมูล MiraData เพิ่มเติม

การอ้างอิง

หากคุณพบว่าโครงการนี้มีประโยชน์สำหรับการวิจัยของคุณ โปรดอ้างอิงรายงานของเรา -

 @misc{ju2024miradatalargescalevideodataset,
      title={MiraData: A Large-Scale Video Dataset with Long Durations and Structured Captions}, 
      author={Xuan Ju and Yiming Gao and Zhaoyang Zhang and Ziyang Yuan and Xintao Wang and Ailing Zeng and Yu Xiong and Qiang Xu and Ying Shan},
      year={2024},
      eprint={2407.06358},
      archivePrefix={arXiv},
      primaryClass={cs.CV},
      url={https://arxiv.org/abs/2407.06358}, 
}