HumanML3D عبارة عن مجموعة بيانات ثلاثية الأبعاد للغة الحركة البشرية تنشأ من مزيج من مجموعة بيانات HumanAct12 وAmass. ويغطي نطاقًا واسعًا من الأفعال البشرية مثل الأنشطة اليومية (مثل "المشي" و"القفز") والرياضة (مثل "السباحة" و"لعب الجولف") والألعاب البهلوانية (مثل "عجلة العجلة") والمهارات الفنية (على سبيل المثال). ، "الرقص").
يأتي كل مقطع متحرك في HumanML3D مع 3-4 أوصاف جمل مفردة مشروحة على Amazon Mechanical Turk. يتم تقليص الحركات إلى 20 إطارًا في الثانية، ويستمر كل مقطع من 2 إلى 10 ثوانٍ.
بشكل عام، تتكون مجموعة بيانات HumanML3D من 14,616 حركة و 44,970 وصفًا مؤلفة من 5,371 كلمة مميزة. إجمالي طول الحركات يصل إلى 28.59 ساعة. يبلغ متوسط طول الحركة 7.1 ثانية، بينما يبلغ متوسط طول الوصف 12 كلمة.
نقوم بمضاعفة حجم مجموعة بيانات HumanML3D عن طريق عكس جميع الحركات واستبدال كلمات رئيسية معينة بشكل صحيح في الأوصاف (على سبيل المثال، "يسار"->"يمين"، و"في اتجاه عقارب الساعة"->"عكس اتجاه عقارب الساعة").
مجموعة بيانات KIT Motion-Language (KIT-ML) هي أيضًا مجموعة بيانات ذات صلة تحتوي على 3,911 حركة و6,278 وصفًا. قمنا بمعالجة مجموعة بيانات KIT-ML باتباع نفس إجراءات مجموعة بيانات HumanML3D، ونوفر إمكانية الوصول في هذا المستودع. ومع ذلك، إذا كنت ترغب في استخدام مجموعة بيانات KIT-ML، فيرجى تذكر الاستشهاد بالورقة الأصلية.
إذا كانت مجموعة البيانات هذه مفيدة في مشاريعك، فسنقدر نجمك في قاعدة البيانات هذه. ؟؟
♀️ T2M - أول عمل على HumanML3D يتعلم إنشاء حركة ثلاثية الأبعاد من الأوصاف النصية، باستخدام VAE الزمني .
؟ TM2T - يتعلم التعيين المتبادل بين النصوص والحركات من خلال رمز الحركة المنفصل.
؟ TM2D - يولد حركات الرقص مع تعليمات نصية.
؟ MoMask - إنشاء text2motion بمستوى جديد باستخدام VQ المتبقي والنمذجة المقنعة التوليدية.
بالنسبة لمجموعة بيانات KIT-ML، يمكنك تنزيلها مباشرة [هنا]. نظرًا لسياسة التوزيع الخاصة بمجموعة بيانات AMASS، لا يُسمح لنا بتوزيع البيانات مباشرةً. نحن نقدم سلسلة من البرامج النصية التي يمكنها إعادة إنتاج مجموعة بيانات HumanML3D الخاصة بنا من مجموعة بيانات AMASS.
تحتاج إلى استنساخ هذا المستودع وتثبيت البيئة الافتراضية.
[2022/12/15] تحديث : تثبيت matplotlib=3.3.4 قد يمنع الانحراف البسيط للبيانات التي تم إنشاؤها عن البيانات المرجعية. انظر العدد
conda env create -f بيئة.yaml كوندا تفعيل torch_render
في حالة فشل التثبيت، يمكنك بدلاً من ذلك تثبيت ما يلي:
- بايثون==3.7.10 - نومي - سكيبي - بايتورتش - تقدم - الباندا - Matplotlib==3.3.4 // للرسوم المتحركة فقط - ffmpeg==4.3.1 // للرسوم المتحركة فقط - Spacy==2.3.4 // فقط لمعالجة النص
قم بتنزيل وضع SMPL+H من SMPL+H (اختر نموذج SMPL+H الموسع المستخدم في مشروع AMASS) ونموذج DMPL من DMPL (اختر DMPLs المتوافقة مع SMPL). ثم ضع جميع النماذج تحت "./body_model/".
تحتاج إلى تشغيل البرامج النصية التالية للحصول على مجموعة بيانات HumanML3D:
Raw_pose_processing.ipynb
motion_representation.ipynb
cal_mean_variance.ipynb
قد يكون هذا اختياريًا. قم بتشغيله إذا كنت بحاجة إلى رسوم متحركة.
Animation.ipynb
يرجى تذكر اتباع خطوات التحقق المزدوج. تهدف هذه إلى التحقق مما إذا كنت على المسار الصحيح للحصول على مجموعة بيانات HumanML3D.
بعد كل شيء، البيانات الموجودة ضمن المجلد "./HumanML3D" هي ما تحتاجه أخيرًا.
<DATA-DIR>./animations.rar // الرسوم المتحركة لجميع المقاطع المتحركة بتنسيق mp4. ./new_joint_vecs.rar // ميزة التدوير المستخرجة وميزات التدوير ناقلات من مواضع الحركة ثلاثية الأبعاد. ./new_joints.rar //أوضاع الحركة ثلاثية الأبعاد. ./texts.rar //أوصاف بيانات الحركة. ./Mean.npy // متوسط جميع البيانات في new_joint_vecs ./Std.npy // الانحراف المعياري لجميع البيانات في new_joint_vecs ./all.txt //قائمة بأسماء جميع البيانات ./train.txt //قائمة بأسماء بيانات التدريب ./test.txt //قائمة بأسماء بيانات الاختبار ./train_val.txt // قائمة بأسماء بيانات التدريب والتحقق من الصحة ./val.txt //قائمة بأسماء بيانات التحقق من الصحة ./all.txt //قائمة بأسماء جميع البيانات
تتبع بيانات HumanML3D البنية الهيكلية لـ SMPL التي تحتوي على 22 مفصلًا. يحتوي KIT-ML على 21 مفصلًا هيكليًا. ارجع إلى ParaUtils للحصول على سلاسل حركية مفصلة.
يتم نسخ الملف المسمى "MXXXXXX.*" (على سبيل المثال، 'M000000.npy') من ملف يحمل الاسم المطابق "XXXXXX.*" (على سبيل المثال، '000000.npy'). تتبع الملفات النصية وملفات الحركة نفس بروتوكولات التسمية، مما يعني أن النصوص الموجودة في "./texts/XXXXXX.txt" (على سبيل المثال، '000000.txt') تصف بالضبط حركات الإنسان في "./new_joints(or new_joint_vecs)/XXXXXX.npy " (على سبيل المثال، '000000.npy')
يبدو كل ملف نصي كما يلي:
رجل يركل شيئًا ما أو شخصًا ما برجله اليسرى.#a/DET man/NOUN Kick/VERB شيء/PRON أو/CCONJ شخص ما/PRON مع/ADP له/DET يسار/ADJ ساق/NOUN#0.0#0.0الشخص الواقف يركل بقدمهم اليسرى قبل العودة إلى وضعهم الأصلي.#the/DET stand/VERB person/NOUN Kick/VERB with/ADP their/DET left/ADJ foot/NOUN before/ADP اذهب/فعل للخلف/ADV إلى/ADP هم/DET أصلي/موقف ADJ/NOUN#0.0#0.0رجل يركل بشيء أو شخص ما برجله اليسرى.#a/DET رجل/NOUN ركلة/فعل مع/ADP شيء/PRON أو/CCONJ شخص ما/PRON مع/ADP له/DET يسار/ADJ ساق/NOUN#0.0#0.0إنه يركل ركلة برجله اليسرى#he/PRON is/AUX يطير/ركلة فعل/اسم مع/ADP له/DET يسار/ساق ADJ/NOUN#0.0#0.0
مع كل سطر تعليق توضيحي نصي مميز، يتكون من أربعة أجزاء: الوصف الأصلي (أحرف صغيرة) ، الجملة المعالجة ، وقت (أوقات) البداية ، وقت (أوقات) النهاية ، مفصولة بـ # .
نظرًا لأن بعض الحركات معقدة جدًا بحيث لا يمكن وصفها، فإننا نسمح للمعلقين بوصف جزء فرعي من حركة معينة إذا لزم الأمر. في هذه الحالات، يشير وقت (أوقات) البدء ووقت (أوقات) الانتهاء إلى مقاطع الحركة التي تم شرحها. ومع ذلك، نلاحظ أن هذه العناصر تشغل نسبة صغيرة فقط من HumanML3D. يتم ضبط وقت (أوقات) البدء ووقت (أوقات) الانتهاء على 0 افتراضيًا، مما يعني أن النص يقوم بتعليق التسلسل الكامل للحركة المقابلة.
إذا لم تتمكن من تثبيت ffmpeg، فيمكنك تحريك مقاطع الفيديو بتنسيق ".gif" بدلاً من ".mp4". ومع ذلك، عادةً ما يستغرق إنشاء صور GIF وقتًا أطول واحتلالًا للذاكرة.
إذا كنت تستخدم مجموعة بيانات KIT-ML، فيرجى مراعاة الاستشهاد بالمقالة التالية:
@article{Plappert2016, author = {Matthias Plappert and Christian Mandery and Tamim Asfour}, title = {The {KIT} Motion-Language Dataset}, journal = {Big Data} publisher = {Mary Ann Liebert Inc}, year = 2016, month = {dec}, volume = {4}, number = {4}, pages = {236--252}, url = {http://dx.doi.org/10.1089/big.2016.0028}, doi = {10.1089/big.2016.0028}, }
إذا كنت تستخدم مجموعة بيانات HumanML3D، فيرجى مراعاة الاستشهاد بالأبحاث التالية:
@InProceedings{Guo_2022_CVPR, author = {Guo, Chuan and Zou, Shihao and Zuo, Xinxin and Wang, Sen and Ji, Wei and Li, Xingyu and Cheng, Li}, title = {Generating Diverse and Natural 3D Human Motions From Text}, booktitle = {Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)}, month = {June}, year = {2022}, pages = {5152-5161} }
اتصل بـ Chuan Guo على [email protected] إذا كانت لديك أي أسئلة أو تعليقات.