ดาวน์โหลด HumanML3D - ดาวน์โหลดซอร์สโค้ด HumanML3D

HumanML3D

ซอร์สโค้ดอื่น ๆ

ดาวน์โหลด

HumanML3D: ชุดข้อมูลภาษาการเคลื่อนไหวของมนุษย์ 3 มิติ

HumanML3D คือชุดข้อมูลภาษาเคลื่อนไหวของมนุษย์ 3 มิติที่มาจากการรวมกันของชุดข้อมูล HumanAct12 และ Amass ครอบคลุมการกระทำของมนุษย์ที่หลากหลาย เช่น กิจกรรมประจำวัน (เช่น 'การเดิน' 'การกระโดด') กีฬา (เช่น 'ว่ายน้ำ' 'การเล่นกอล์ฟ') การแสดงผาดโผน (เช่น 'ล้อเกวียน') และศิลปะ (เช่น , 'การเต้นรำ')

ทีเซอร์_รูปภาพ

สถิติของ HumanML3D

- สถิติ

คลิปภาพเคลื่อนไหวแต่ละคลิปใน HumanML3D มาพร้อมกับคำอธิบายประโยคเดียว 3-4 ประโยคซึ่งมีคำอธิบายประกอบบน Amazon Mechanical Turk การเคลื่อนไหวจะถูกลดขนาดลงเป็น 20 fps โดยแต่ละคลิปจะมีความยาวตั้งแต่ 2 ถึง 10 วินาที

โดยรวมแล้ว ชุดข้อมูล HumanML3D ประกอบด้วยการเคลื่อนไหว 14,616 รายการ และคำอธิบาย 44,970 รายการ ประกอบด้วยคำที่แตกต่างกัน 5,371 คำ ความยาวรวมของการเคลื่อนไหว 28.59 ชั่วโมง ความยาวภาพเคลื่อนไหวโดยเฉลี่ยคือ 7.1 วินาที ในขณะที่ความยาวคำอธิบายโดยเฉลี่ยคือ 12 คำ

- การเพิ่มข้อมูล

เราเพิ่มขนาดของชุดข้อมูล HumanML3D เป็นสองเท่าโดยการสะท้อนการเคลื่อนไหวทั้งหมดและแทนที่คำหลักบางคำในคำอธิบายอย่างเหมาะสม (เช่น 'ซ้าย'->'ขวา', 'ตามเข็มนาฬิกา'->'ทวนเข็มนาฬิกา')

ชุดข้อมูล KIT-ML

KIT Motion-Language Dataset (KIT-ML) ยังเป็นชุดข้อมูลที่เกี่ยวข้องซึ่งมีการเคลื่อนไหว 3,911 รายการและคำอธิบาย 6,278 รายการ เราประมวลผลชุดข้อมูล KIT-ML ตามขั้นตอนเดียวกันกับชุดข้อมูล HumanML3D และจัดเตรียมการเข้าถึงในพื้นที่เก็บข้อมูลนี้ อย่างไรก็ตาม หากคุณต้องการใช้ชุดข้อมูล KIT-ML โปรดอย่าลืมอ้างอิงเอกสารต้นฉบับ

หากชุดข้อมูลนี้มีประโยชน์ในโปรเจ็กต์ของคุณ เราจะยกย่องดาวของคุณบนโค้ดเบสนี้ -

ชำระเงินผลงานของเราใน HumanML3D

?‍♀️ T2M - งานชิ้นแรกบน HumanML3D ที่เรียนรู้การสร้างการเคลื่อนไหว 3 มิติจากคำอธิบายที่เป็นข้อความ พร้อมด้วย VAE ชั่วคราว
- TM2T - เรียนรู้การแมปร่วมกันระหว่างข้อความและการเคลื่อนไหวผ่านโทเค็นการเคลื่อนไหวแบบแยก
- TM2D - สร้างท่าเต้นพร้อมคำสั่งข้อความ
- MoMask - การสร้าง text2motion ระดับใหม่โดยใช้ VQ ที่เหลือและการสร้างแบบจำลองมาสก์แบบกำเนิด

วิธีการรับข้อมูล

สำหรับชุดข้อมูล KIT-ML คุณสามารถดาวน์โหลดได้โดยตรง [ที่นี่] เนื่องจากนโยบายการเผยแพร่ชุดข้อมูล AMASS เราจึงไม่ได้รับอนุญาตให้เผยแพร่ข้อมูลโดยตรง เรามีชุดสคริปต์ที่สามารถสร้างชุดข้อมูล HumanML3D ของเราจากชุดข้อมูล AMASS ได้

คุณต้องโคลนพื้นที่เก็บข้อมูลนี้และติดตั้งสภาพแวดล้อมเสมือน

[2022/12/15] อัปเดต : การติดตั้ง matplotlib=3.3.4 อาจป้องกันการเบี่ยงเบนเล็กน้อยของข้อมูลที่สร้างขึ้นจากข้อมูลอ้างอิง ดูปัญหา

สภาพแวดล้อมเสมือนหลาม

 conda env สร้าง -f สภาพแวดล้อม yaml
conda เปิดใช้งาน torch_render

ในกรณีที่การติดตั้งล้มเหลว คุณสามารถติดตั้งสิ่งต่อไปนี้:

 - หลาม==3.7.10
- นัมปี้
          - สไปซี่
          - ไพทอร์ช
        - Tqdm
 - หมีแพนด้า
- Matplotlib==3.3.4 // สำหรับแอนิเมชั่นเท่านั้น
- ffmpeg==4.3.1 // สำหรับแอนิเมชั่นเท่านั้น
- Spacy==2.3.4 // สำหรับการประมวลผลข้อความเท่านั้น

ดาวน์โหลดโมเดล SMPL+H และ DMPL

ดาวน์โหลดโหมด SMPL+H จาก SMPL+H (เลือกรุ่น Extended SMPL+H ที่ใช้ในโครงการ AMASS) และรุ่น DMPL จาก DMPL (เลือก DMPL ที่เข้ากันได้กับ SMPL) จากนั้นวางโมเดลทั้งหมดไว้ใต้ "./body_model/"

แยกและประมวลผลข้อมูล

คุณต้องเรียกใช้สคริปต์ต่อไปนี้เพื่อรับชุดข้อมูล HumanML3D:

raw_pose_processing.ipynb
Motion_representation.ipynb
cal_mean_variance.ipynb

นี่อาจเป็นทางเลือก เรียกใช้หากคุณต้องการภาพเคลื่อนไหว

แอนิเมชั่น.ipynb

โปรดอย่าลืมทำตามขั้นตอนการตรวจสอบซ้ำอีกครั้ง จุดมุ่งหมายเหล่านี้เพื่อตรวจสอบว่าคุณมาถูกทางแล้วในการรับชุดข้อมูล HumanML3D

ท้ายที่สุดแล้ว ข้อมูลในโฟลเดอร์ "./HumanML3D" คือสิ่งที่คุณต้องการในที่สุด

โครงสร้างข้อมูล

 <DATA-DIR>./animations.rar //ภาพเคลื่อนไหวของคลิปเคลื่อนไหวทั้งหมดในรูปแบบ MP4
./new_joint_vecs.rar // แยกคุณสมบัติการหมุนที่ไม่แปรผันและเวกเตอร์คุณสมบัติการหมุนจากตำแหน่งการเคลื่อนไหว 3 มิติ
./new_joints.rar // ตำแหน่งการเคลื่อนไหว 3 มิติ
./texts.rar //คำอธิบายข้อมูลการเคลื่อนไหว
./Mean.npy //หมายถึงข้อมูลทั้งหมดใน new_joint_vecs
./Std.npy //ค่าเบี่ยงเบนมาตรฐานสำหรับข้อมูลทั้งหมดใน new_joint_vecs
./all.txt //รายชื่อข้อมูลทั้งหมด
./train.txt //รายการชื่อข้อมูลการฝึกอบรม
./test.txt //รายการชื่อข้อมูลการทดสอบ
./train_val.txt //รายชื่อการฝึกอบรมและข้อมูลการตรวจสอบ
./val.txt //รายชื่อข้อมูลการตรวจสอบ
./all.txt //รายชื่อข้อมูลทั้งหมด

ข้อมูล HumanML3D เป็นไปตามโครงสร้างโครงกระดูก SMPL ที่มีข้อต่อ 22 ข้อ KIT-ML มีข้อต่อโครงกระดูก 21 ข้อ อ้างถึง paraUtils สำหรับคิเนเมติกเชนโดยละเอียด

ไฟล์ชื่อ "MXXXXXX.*" (เช่น 'M000000.npy') จะถูกมิเรอร์จากไฟล์ที่มีชื่อที่สอดคล้องกัน "XXXXXX.*" (เช่น '000000.npy') ไฟล์ข้อความและไฟล์ภาพเคลื่อนไหวเป็นไปตามโปรโตคอลการตั้งชื่อเดียวกัน ซึ่งหมายถึงข้อความใน "./texts/XXXXXX.txt" (เช่น '000000.txt') อธิบายการเคลื่อนไหวของมนุษย์อย่างชัดเจนใน "./new_joints(or new_joint_vecs)/XXXXXX.npy " (เช่น '000000.npy')

ไฟล์ข้อความแต่ละไฟล์มีลักษณะดังนี้:

 ผู้ชายเตะบางสิ่งบางอย่างหรือใครบางคนด้วยขาซ้ายของเขา#a/DET man/NOUN kick/VERB บางสิ่งบางอย่าง/PRON หรือ/CCONJ บางคน/PRON ด้วย/ADP ของเขา/DET ซ้าย/ADJ ขา/NOUN#0.0#0.0the บุคคลที่ยืนเตะ ด้วยเท้าซ้ายก่อนที่จะกลับสู่ท่าทางเดิม#the/DET stand/VERB person/NOUN kick/VERB with/ADP their/DET left/ADJ foot/NOUN before/ADP go/VERB back/ADV to/ADP their/DET original/ADJ stance/NOUN#0.0#0.0a man kicks with some or someone with his left leg.#a/DET man/NOUN kick/VERB with/ADP some/PRON หรือ/CCONJ บางคน/PRON ด้วย/ADP ของเขา/DET ซ้าย/ADJ ขา/NOUN#0.0#0.0เขากำลังบินเตะด้วยขาซ้ายของเขา#เขา/PRON คือ/AUX บิน / กริยาเตะ / คำนามด้วย / ADP ของเขา / DET ซ้าย / ขา ADJ / NOUN#0.0#0.0

โดยแต่ละบรรทัดจะมีคำอธิบายประกอบที่เป็นข้อความที่แตกต่างกัน ประกอบด้วยสี่ส่วน: คำอธิบายต้นฉบับ (ตัวพิมพ์เล็ก) ประโยคที่ประมวล ผล เวลาเริ่มต้น เวลาสิ้นสุด ซึ่งคั่นด้วย #

เนื่องจากการเคลื่อนไหวบางอย่างซับซ้อนเกินกว่าจะอธิบายได้ เราจึงอนุญาตให้ผู้อธิบายอธิบายส่วนย่อยของการเคลื่อนไหวที่กำหนดได้ หากจำเป็น ในกรณีเหล่านี้ เวลาเริ่มต้น และ เวลาสิ้นสุด จะหมายถึงส่วนของการเคลื่อนไหวที่มีคำอธิบายประกอบ อย่างไรก็ตาม เราสังเกตว่าสิ่งเหล่านี้ครอบครอง HumanML3D ในสัดส่วนเพียงเล็กน้อยเท่านั้น เวลาเริ่มต้น และ เวลาสิ้นสุด ถูกตั้งค่าเป็น 0 ตามค่าเริ่มต้น ซึ่งหมายความว่าข้อความจะบรรยายลำดับการเคลื่อนไหวที่สอดคล้องกันทั้งหมด

หากคุณไม่สามารถติดตั้ง ffmpeg ได้ คุณสามารถทำให้วิดีโอเคลื่อนไหวเป็น '.gif' แทนที่จะเป็น '.mp4' อย่างไรก็ตาม การสร้าง GIF มักจะใช้เวลาและการครอบครองหน่วยความจำนานกว่า

การอ้างอิง

หากคุณใช้ชุดข้อมูล KIT-ML โปรดพิจารณาอ้างอิงเอกสารต่อไปนี้:

@article{Plappert2016,
    author = {Matthias Plappert and Christian Mandery and Tamim Asfour},
    title = {The {KIT} Motion-Language Dataset},
    journal = {Big Data}
    publisher = {Mary Ann Liebert Inc},
    year = 2016,
    month = {dec},
    volume = {4},
    number = {4},
    pages = {236--252},
    url = {http://dx.doi.org/10.1089/big.2016.0028},
    doi = {10.1089/big.2016.0028},
}

หากคุณใช้ชุดข้อมูล HumanML3D โปรดพิจารณาอ้างอิงเอกสารต่อไปนี้:

@InProceedings{Guo_2022_CVPR,
    author    = {Guo, Chuan and Zou, Shihao and Zuo, Xinxin and Wang, Sen and Ji, Wei and Li, Xingyu and Cheng, Li},
    title     = {Generating Diverse and Natural 3D Human Motions From Text},
    booktitle = {Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)},
    month     = {June},
    year      = {2022},
    pages     = {5152-5161}
}