HumanML3D คือชุดข้อมูลภาษาเคลื่อนไหวของมนุษย์ 3 มิติที่มาจากการรวมกันของชุดข้อมูล HumanAct12 และ Amass ครอบคลุมการกระทำของมนุษย์ที่หลากหลาย เช่น กิจกรรมประจำวัน (เช่น 'การเดิน' 'การกระโดด') กีฬา (เช่น 'ว่ายน้ำ' 'การเล่นกอล์ฟ') การแสดงผาดโผน (เช่น 'ล้อเกวียน') และศิลปะ (เช่น , 'การเต้นรำ')
คลิปภาพเคลื่อนไหวแต่ละคลิปใน HumanML3D มาพร้อมกับคำอธิบายประโยคเดียว 3-4 ประโยคซึ่งมีคำอธิบายประกอบบน Amazon Mechanical Turk การเคลื่อนไหวจะถูกลดขนาดลงเป็น 20 fps โดยแต่ละคลิปจะมีความยาวตั้งแต่ 2 ถึง 10 วินาที
โดยรวมแล้ว ชุดข้อมูล HumanML3D ประกอบด้วยการเคลื่อนไหว 14,616 รายการ และคำอธิบาย 44,970 รายการ ประกอบด้วยคำที่แตกต่างกัน 5,371 คำ ความยาวรวมของการเคลื่อนไหว 28.59 ชั่วโมง ความยาวภาพเคลื่อนไหวโดยเฉลี่ยคือ 7.1 วินาที ในขณะที่ความยาวคำอธิบายโดยเฉลี่ยคือ 12 คำ
เราเพิ่มขนาดของชุดข้อมูล HumanML3D เป็นสองเท่าโดยการสะท้อนการเคลื่อนไหวทั้งหมดและแทนที่คำหลักบางคำในคำอธิบายอย่างเหมาะสม (เช่น 'ซ้าย'->'ขวา', 'ตามเข็มนาฬิกา'->'ทวนเข็มนาฬิกา')
KIT Motion-Language Dataset (KIT-ML) ยังเป็นชุดข้อมูลที่เกี่ยวข้องซึ่งมีการเคลื่อนไหว 3,911 รายการและคำอธิบาย 6,278 รายการ เราประมวลผลชุดข้อมูล KIT-ML ตามขั้นตอนเดียวกันกับชุดข้อมูล HumanML3D และจัดเตรียมการเข้าถึงในพื้นที่เก็บข้อมูลนี้ อย่างไรก็ตาม หากคุณต้องการใช้ชุดข้อมูล KIT-ML โปรดอย่าลืมอ้างอิงเอกสารต้นฉบับ
หากชุดข้อมูลนี้มีประโยชน์ในโปรเจ็กต์ของคุณ เราจะยกย่องดาวของคุณบนโค้ดเบสนี้ -
?♀️ T2M - งานชิ้นแรกบน HumanML3D ที่เรียนรู้การสร้างการเคลื่อนไหว 3 มิติจากคำอธิบายที่เป็นข้อความ พร้อมด้วย VAE ชั่วคราว
- TM2T - เรียนรู้การแมปร่วมกันระหว่างข้อความและการเคลื่อนไหวผ่านโทเค็นการเคลื่อนไหวแบบแยก
- TM2D - สร้างท่าเต้นพร้อมคำสั่งข้อความ
- MoMask - การสร้าง text2motion ระดับใหม่โดยใช้ VQ ที่เหลือและการสร้างแบบจำลองมาสก์แบบกำเนิด
สำหรับชุดข้อมูล KIT-ML คุณสามารถดาวน์โหลดได้โดยตรง [ที่นี่] เนื่องจากนโยบายการเผยแพร่ชุดข้อมูล AMASS เราจึงไม่ได้รับอนุญาตให้เผยแพร่ข้อมูลโดยตรง เรามีชุดสคริปต์ที่สามารถสร้างชุดข้อมูล HumanML3D ของเราจากชุดข้อมูล AMASS ได้
คุณต้องโคลนพื้นที่เก็บข้อมูลนี้และติดตั้งสภาพแวดล้อมเสมือน
[2022/12/15] อัปเดต : การติดตั้ง matplotlib=3.3.4 อาจป้องกันการเบี่ยงเบนเล็กน้อยของข้อมูลที่สร้างขึ้นจากข้อมูลอ้างอิง ดูปัญหา
conda env สร้าง -f สภาพแวดล้อม yaml conda เปิดใช้งาน torch_render
ในกรณีที่การติดตั้งล้มเหลว คุณสามารถติดตั้งสิ่งต่อไปนี้:
- หลาม==3.7.10 - นัมปี้ - สไปซี่ - ไพทอร์ช - Tqdm - หมีแพนด้า - Matplotlib==3.3.4 // สำหรับแอนิเมชั่นเท่านั้น - ffmpeg==4.3.1 // สำหรับแอนิเมชั่นเท่านั้น - Spacy==2.3.4 // สำหรับการประมวลผลข้อความเท่านั้น
ดาวน์โหลดโหมด SMPL+H จาก SMPL+H (เลือกรุ่น Extended SMPL+H ที่ใช้ในโครงการ AMASS) และรุ่น DMPL จาก DMPL (เลือก DMPL ที่เข้ากันได้กับ SMPL) จากนั้นวางโมเดลทั้งหมดไว้ใต้ "./body_model/"
คุณต้องเรียกใช้สคริปต์ต่อไปนี้เพื่อรับชุดข้อมูล HumanML3D:
raw_pose_processing.ipynb
Motion_representation.ipynb
cal_mean_variance.ipynb
นี่อาจเป็นทางเลือก เรียกใช้หากคุณต้องการภาพเคลื่อนไหว
แอนิเมชั่น.ipynb
โปรดอย่าลืมทำตามขั้นตอนการตรวจสอบซ้ำอีกครั้ง จุดมุ่งหมายเหล่านี้เพื่อตรวจสอบว่าคุณมาถูกทางแล้วในการรับชุดข้อมูล HumanML3D
ท้ายที่สุดแล้ว ข้อมูลในโฟลเดอร์ "./HumanML3D" คือสิ่งที่คุณต้องการในที่สุด
<DATA-DIR>./animations.rar //ภาพเคลื่อนไหวของคลิปเคลื่อนไหวทั้งหมดในรูปแบบ MP4 ./new_joint_vecs.rar // แยกคุณสมบัติการหมุนที่ไม่แปรผันและเวกเตอร์คุณสมบัติการหมุนจากตำแหน่งการเคลื่อนไหว 3 มิติ ./new_joints.rar // ตำแหน่งการเคลื่อนไหว 3 มิติ ./texts.rar //คำอธิบายข้อมูลการเคลื่อนไหว ./Mean.npy //หมายถึงข้อมูลทั้งหมดใน new_joint_vecs ./Std.npy //ค่าเบี่ยงเบนมาตรฐานสำหรับข้อมูลทั้งหมดใน new_joint_vecs ./all.txt //รายชื่อข้อมูลทั้งหมด ./train.txt //รายการชื่อข้อมูลการฝึกอบรม ./test.txt //รายการชื่อข้อมูลการทดสอบ ./train_val.txt //รายชื่อการฝึกอบรมและข้อมูลการตรวจสอบ ./val.txt //รายชื่อข้อมูลการตรวจสอบ ./all.txt //รายชื่อข้อมูลทั้งหมด
ข้อมูล HumanML3D เป็นไปตามโครงสร้างโครงกระดูก SMPL ที่มีข้อต่อ 22 ข้อ KIT-ML มีข้อต่อโครงกระดูก 21 ข้อ อ้างถึง paraUtils สำหรับคิเนเมติกเชนโดยละเอียด
ไฟล์ชื่อ "MXXXXXX.*" (เช่น 'M000000.npy') จะถูกมิเรอร์จากไฟล์ที่มีชื่อที่สอดคล้องกัน "XXXXXX.*" (เช่น '000000.npy') ไฟล์ข้อความและไฟล์ภาพเคลื่อนไหวเป็นไปตามโปรโตคอลการตั้งชื่อเดียวกัน ซึ่งหมายถึงข้อความใน "./texts/XXXXXX.txt" (เช่น '000000.txt') อธิบายการเคลื่อนไหวของมนุษย์อย่างชัดเจนใน "./new_joints(or new_joint_vecs)/XXXXXX.npy " (เช่น '000000.npy')
ไฟล์ข้อความแต่ละไฟล์มีลักษณะดังนี้:
ผู้ชายเตะบางสิ่งบางอย่างหรือใครบางคนด้วยขาซ้ายของเขา#a/DET man/NOUN kick/VERB บางสิ่งบางอย่าง/PRON หรือ/CCONJ บางคน/PRON ด้วย/ADP ของเขา/DET ซ้าย/ADJ ขา/NOUN#0.0#0.0the บุคคลที่ยืนเตะ ด้วยเท้าซ้ายก่อนที่จะกลับสู่ท่าทางเดิม#the/DET stand/VERB person/NOUN kick/VERB with/ADP their/DET left/ADJ foot/NOUN before/ADP go/VERB back/ADV to/ADP their/DET original/ADJ stance/NOUN#0.0#0.0a man kicks with some or someone with his left leg.#a/DET man/NOUN kick/VERB with/ADP some/PRON หรือ/CCONJ บางคน/PRON ด้วย/ADP ของเขา/DET ซ้าย/ADJ ขา/NOUN#0.0#0.0เขากำลังบินเตะด้วยขาซ้ายของเขา#เขา/PRON คือ/AUX บิน / กริยาเตะ / คำนามด้วย / ADP ของเขา / DET ซ้าย / ขา ADJ / NOUN#0.0#0.0
โดยแต่ละบรรทัดจะมีคำอธิบายประกอบที่เป็นข้อความที่แตกต่างกัน ประกอบด้วยสี่ส่วน: คำอธิบายต้นฉบับ (ตัวพิมพ์เล็ก) ประโยคที่ประมวล ผล เวลาเริ่มต้น เวลาสิ้นสุด ซึ่งคั่นด้วย #
เนื่องจากการเคลื่อนไหวบางอย่างซับซ้อนเกินกว่าจะอธิบายได้ เราจึงอนุญาตให้ผู้อธิบายอธิบายส่วนย่อยของการเคลื่อนไหวที่กำหนดได้ หากจำเป็น ในกรณีเหล่านี้ เวลาเริ่มต้น และ เวลาสิ้นสุด จะหมายถึงส่วนของการเคลื่อนไหวที่มีคำอธิบายประกอบ อย่างไรก็ตาม เราสังเกตว่าสิ่งเหล่านี้ครอบครอง HumanML3D ในสัดส่วนเพียงเล็กน้อยเท่านั้น เวลาเริ่มต้น และ เวลาสิ้นสุด ถูกตั้งค่าเป็น 0 ตามค่าเริ่มต้น ซึ่งหมายความว่าข้อความจะบรรยายลำดับการเคลื่อนไหวที่สอดคล้องกันทั้งหมด
หากคุณไม่สามารถติดตั้ง ffmpeg ได้ คุณสามารถทำให้วิดีโอเคลื่อนไหวเป็น '.gif' แทนที่จะเป็น '.mp4' อย่างไรก็ตาม การสร้าง GIF มักจะใช้เวลาและการครอบครองหน่วยความจำนานกว่า
หากคุณใช้ชุดข้อมูล KIT-ML โปรดพิจารณาอ้างอิงเอกสารต่อไปนี้:
@article{Plappert2016, author = {Matthias Plappert and Christian Mandery and Tamim Asfour}, title = {The {KIT} Motion-Language Dataset}, journal = {Big Data} publisher = {Mary Ann Liebert Inc}, year = 2016, month = {dec}, volume = {4}, number = {4}, pages = {236--252}, url = {http://dx.doi.org/10.1089/big.2016.0028}, doi = {10.1089/big.2016.0028}, }
หากคุณใช้ชุดข้อมูล HumanML3D โปรดพิจารณาอ้างอิงเอกสารต่อไปนี้:
@InProceedings{Guo_2022_CVPR, author = {Guo, Chuan and Zou, Shihao and Zuo, Xinxin and Wang, Sen and Ji, Wei and Li, Xingyu and Cheng, Li}, title = {Generating Diverse and Natural 3D Human Motions From Text}, booktitle = {Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)}, month = {June}, year = {2022}, pages = {5152-5161} }
ติดต่อ Chuan Guo ได้ที่ [email protected] หากมีคำถามหรือความคิดเห็น