พื้นที่เก็บข้อมูลนี้เป็นการดำเนินการอย่างเป็นทางการของการแสดงออกทางสีหน้า CVPR 2024 Paper 3D ผ่านการสังเคราะห์การวิเคราะห์โดยเส้นประสาท
Smirk สร้างใบหน้า 3 มิติขึ้นมาใหม่จากภาพตาข้างเดียวด้วยรูปทรงเรขาคณิตใบหน้าที่ฟื้นฟูการแสดงออกที่รุนแรงไม่สมมาตรและบอบบางอย่างซื่อสัตย์
คุณต้องติดตั้ง Pytorch และ Pytorch3D เวอร์ชันที่ใช้งานได้ เราให้ไฟล์ requirements.txt
ที่สามารถใช้ในการติดตั้งการพึ่งพาที่จำเป็นสำหรับการตั้งค่า Python 3.9 ด้วย Cuda 11.7:
conda สร้าง -n smirk python = 3.9 PIP Install -r rechents.txt# ติดตั้ง pytorch3d nowpip ติดตั้ง-no-index-no-cache-dir pytorch3d -f https://dl.fbaipublicfiles.com/pytorch3d/packaging/wheels/py39_cu117_pyt201
จากนั้นเพื่อดาวน์โหลดรุ่นที่ต้องการรัน:
bash quick_install.sh
การติดตั้งด้านบนรวมถึงการดาวน์โหลดรุ่นเปลวไฟ สิ่งนี้ต้องมีการลงทะเบียน หากคุณไม่มีบัญชีคุณสามารถลงทะเบียนได้ที่ https://flame.is.tue.mpg.de/
คำสั่งนี้จะดาวน์โหลดโมเดล Pretraned ที่ยิ้มแย้มซึ่งสามารถพบได้ใน Google Drive
เราให้การสาธิตสองครั้ง หนึ่งที่สามารถใช้ทดสอบโมเดลบนภาพเดียว
python demo.py -อินพุตตัวอย่าง/test_image2.png -OUT_Path Results/ -Checkpoint Pretrained_models/smirk_em1.pt -crop
และหนึ่งที่สามารถใช้ในการทดสอบโมเดลในวิดีโอ
Python demo_video.py -input_path ตัวอย่าง/dafoe.mp4 -OUT_Path Results/ -Checkpoint pretrained_models/smirk_em1.pt -crop -render_orig
Smirk ได้รับการฝึกฝนเกี่ยวกับชุดข้อมูลต่อไปนี้: LRS3, Mead, Celeba และ FFHQ
§§ดาวน์โหลดชุดข้อมูล LRS3 จากที่นี่ เราทราบว่าขณะนี้ชุดข้อมูลนี้ถูกลบออกจากเว็บไซต์ สามารถแทนที่ด้วยชุดข้อมูลอื่น ๆ ที่คล้ายกันเช่น LRS2
ดาวน์โหลดชุดข้อมูล Mead จากที่นี่
ดาวน์โหลดชุดข้อมูล Celeba จากที่นี่ คุณสามารถดาวน์โหลดภาพที่จัดเรียงโดยตรง img_align_celeba.zip
ดาวน์โหลดชุดข้อมูล FFHQ256 จากที่นี่
หลังจากดาวน์โหลดชุดข้อมูลเราจำเป็นต้องแยกสถานที่สำคัญโดยใช้ MediaPipe และ Fan เราให้บริการสคริปต์สำหรับการประมวลผลล่วงหน้าใน datasets/preprocess_scripts
ตัวอย่างการใช้งาน:
ชุดข้อมูล Python/preprocess_scripts/apple_mediapipe_to_dataset.py -input_dir path_to_ffhq256/images -OUTPUT_DIR PATH_TO_FFHQ256/MediaPipe_landMarks
และสำหรับแฟน:
ชุดข้อมูล Python/preprocess_scripts/applie_fan_to_dataset.py -input_dir path_to_ffhq256/images -OUTPUT_DIR PATH_TO_FFHQ256/FAN_LANDMARKS
โปรดทราบว่าสำหรับการได้รับสถานที่สำคัญของแฟน ๆ เราใช้การใช้งานใน https://github.com/hhj1897/face_alignment
ถัดไปตรวจสอบให้แน่ใจว่าได้อัปเดตไฟล์ config ใน configs
ด้วยพา ธ ที่ถูกต้องไปยังชุดข้อมูลและสถานที่สำคัญของพวกเขา
ในขั้นตอนการเตรียมการเราฝึกอบรมทั้ง 3 ตัวเข้ารหัส (ท่าทางรูปร่างและการแสดงออก) โดยใช้เฉพาะจุดสังเกตที่สกัดและเอาท์พุทของ MICA
python train.py configs/config_pretrain.yaml train.log_path = "บันทึก/pretrain"
หลังจากการเตรียมการในช่วงหลักของรอยยิ้มเราจะหยุดรูปทรงและโพสต์ตัวเข้ารหัสและฝึกเข้ารหัสนิพจน์ด้วยเฟรมเวิร์กยิ้มเต็มรูปแบบ (เส้นทางการสร้างใหม่และเส้นทางรอบ)
python train.py configs/config_train.yaml resume = logs/pretrain/first_stage_pretrained_encoder.pt train.loss_weights.emotion_loss = 1.0
หากคุณพบว่างานนี้มีประโยชน์โปรดพิจารณาอ้าง:
@Inproceedings {Smirk: CVPR: 2024, title = {3D การแสดงออกทางสีหน้าผ่านการวิเคราะห์โดยการสังเคราะห์-neural}, ผู้แต่ง = {retsinas, George และ Filntisis, Panagiotis P. และ Danecek, Radek และ Abrevaya, Victoria F. และ Roussos , Anastasios และ Bolkart, Timo และ Maragos, Petros}, BookTitle = {การประชุมเกี่ยวกับการมองเห็นและการจดจำรูปแบบคอมพิวเตอร์ (CVPR)}, ปี = {2024}}
เรารับทราบที่เก็บและเอกสารต่อไปนี้ที่ใช้ในงานนี้:
ไมกา
อีโมคา
การเชื่อมต่อกับ autolink