การใช้ Pytorch ในเอกสาร "T2M-GPT: การสร้างการเคลื่อนไหวของมนุษย์จากคำอธิบายที่เป็นข้อความพร้อมการนำเสนอแบบไม่ต่อเนื่อง"
[หน้าโครงการ] [กระดาษ] [สาธิตสมุดบันทึก] [HuggingFace] [สาธิตอวกาศ] [T2M-GPT+]
หากโครงการของเรามีประโยชน์สำหรับการวิจัยของคุณ โปรดพิจารณาการอ้างอิง:
@inproceedings{zhang2023generating,
title={T2M-GPT: Generating Human Motion from Textual Descriptions with Discrete Representations},
author={Zhang, Jianrong and Zhang, Yangsong and Cun, Xiaodong and Huang, Shaoli and Zhang, Yong and Zhao, Hongwei and Lu, Hongtao and Shen, Xi},
booktitle={Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)},
year={2023},
}
ข้อความ: ผู้ชายก้าวไปข้างหน้าและทำท่ายืน | ||||
---|---|---|---|---|
กท | ทีทูเอ็ม | เอ็มดีเอ็ม | โมชั่นกระจาย | ของเรา |
ข้อความ: ชายคนหนึ่งลุกขึ้นจากพื้น เดินเป็นวงกลม แล้วนั่งลงกับพื้น | ||||
กท | ทีทูเอ็ม | เอ็มดีเอ็ม | โมชั่นกระจาย | ของเรา |
โมเดลของเราสามารถเรียนรู้ได้ใน GPU V100-32G ตัวเดียว
conda env create -f environment.yml
conda activate T2M-GPT
รหัสได้รับการทดสอบบน Python 3.8 และ PyTorch 1.8.1
bash dataset/prepare/download_glove.sh
เรากำลังใช้ชุดข้อมูลภาษาการเคลื่อนไหวของมนุษย์ 3 มิติ: HumanML3D และ KIT-ML สำหรับชุดข้อมูลทั้งสอง คุณสามารถดูรายละเอียดรวมถึงลิงก์ดาวน์โหลด [ที่นี่]
ยกตัวอย่าง HumanML3D ไดเร็กทอรีไฟล์ควรมีลักษณะดังนี้:
./dataset/HumanML3D/
├── new_joint_vecs/
├── texts/
├── Mean.npy # same as in [HumanML3D](https://github.com/EricGuo5513/HumanML3D)
├── Std.npy # same as in [HumanML3D](https://github.com/EricGuo5513/HumanML3D)
├── train.txt
├── val.txt
├── test.txt
├── train_val.txt
└── all.txt
เราใช้เครื่องสกัดแบบเดียวกับที่ t2m ให้ไว้เพื่อประเมินการเคลื่อนไหวที่เราสร้างขึ้น กรุณาดาวน์โหลดตัวแยกข้อมูล
bash dataset/prepare/download_extractor.sh
ไฟล์โมเดลที่ฝึกไว้ล่วงหน้าจะถูกจัดเก็บไว้ในโฟลเดอร์ 'ฝึกไว้แล้ว':
bash dataset/prepare/download_model.sh
หากคุณต้องการเรนเดอร์การเคลื่อนไหวที่สร้างขึ้น คุณต้องติดตั้ง:
sudo sh dataset/prepare/download_smpl.sh
conda install -c menpo osmesa
conda install h5py
conda install -c conda-forge shapely pyrender trimesh mapbox_earcut
คู่มือเริ่มต้นใช้งานโค้ดของเราฉบับย่อมีอยู่ใน demo.ipynb
โปรดทราบว่าสำหรับชุดข้อมูล kit เพียงแค่ต้องตั้งค่า '--dataname kit'
ผลลัพธ์จะถูกบันทึกไว้ในโฟลเดอร์เอาต์พุต
python3 train_vq.py
--batch-size 256
--lr 2e-4
--total-iter 300000
--lr-scheduler 200000
--nb-code 512
--down-t 2
--depth 3
--dilation-growth-rate 3
--out-dir output
--dataname t2m
--vq-act relu
--quantizer ema_reset
--loss-vel 0.5
--recons-loss l1_smooth
--exp-name VQVAE
ผลลัพธ์จะถูกบันทึกไว้ในโฟลเดอร์เอาต์พุต
python3 train_t2m_trans.py
--exp-name GPT
--batch-size 128
--num-layers 9
--embed-dim-gpt 1024
--nb-code 512
--n-head-gpt 16
--block-size 51
--ff-rate 4
--drop-out-rate 0.1
--resume-pth output/VQVAE/net_last.pth
--vq-name VQVAE
--out-dir output
--total-iter 300000
--lr-scheduler 150000
--lr 0.0001
--dataname t2m
--down-t 2
--depth 3
--quantizer ema_reset
--eval-iter 10000
--pkeep 0.5
--dilation-growth-rate 3
--vq-act relu
python3 VQ_eval.py
--batch-size 256
--lr 2e-4
--total-iter 300000
--lr-scheduler 200000
--nb-code 512
--down-t 2
--depth 3
--dilation-growth-rate 3
--out-dir output
--dataname t2m
--vq-act relu
--quantizer ema_reset
--loss-vel 0.5
--recons-loss l1_smooth
--exp-name TEST_VQVAE
--resume-pth output/VQVAE/net_last.pth
ปฏิบัติตามการตั้งค่าการประเมินข้อความเป็นภาพเคลื่อนไหว เราประเมินแบบจำลองของเรา 20 ครั้ง และรายงานผลลัพธ์โดยเฉลี่ย เนื่องจากส่วนที่มีความหลากหลายซึ่งเราควรสร้างการเคลื่อนไหว 30 รายการจากข้อความเดียวกัน การประเมินจึงใช้เวลานาน
python3 GPT_eval_multi.py
--exp-name TEST_GPT
--batch-size 128
--num-layers 9
--embed-dim-gpt 1024
--nb-code 512
--n-head-gpt 16
--block-size 51
--ff-rate 4
--drop-out-rate 0.1
--resume-pth output/VQVAE/net_last.pth
--vq-name VQVAE
--out-dir output
--total-iter 300000
--lr-scheduler 150000
--lr 0.0001
--dataname t2m
--down-t 2
--depth 3
--quantizer ema_reset
--eval-iter 10000
--pkeep 0.5
--dilation-growth-rate 3
--vq-act relu
--resume-trans output/GPT/net_best_fid.pth
คุณควรป้อนที่อยู่โฟลเดอร์ npy และชื่อการเคลื่อนไหว นี่คือตัวอย่าง:
python3 render_final.py --filedir output/TEST_GPT/ --motion-list 000019 005485
เราขอขอบคุณความช่วยเหลือจาก: