smirk Download - ดาวน์โหลดซอร์สโค้ด smirk

smirk

ซอร์สโค้ดอื่น ๆ

1.0.0

ดาวน์โหลด

รอยยิ้ม: การแสดงออกทางสีหน้า 3 มิ

พื้นที่เก็บข้อมูลนี้เป็นการดำเนินการอย่างเป็นทางการของการแสดงออกทางสีหน้า CVPR 2024 Paper 3D ผ่านการสังเคราะห์การวิเคราะห์โดยเส้นประสาท

Smirk สร้างใบหน้า 3 มิติขึ้นมาใหม่จากภาพตาข้างเดียวด้วยรูปทรงเรขาคณิตใบหน้าที่ฟื้นฟูการแสดงออกที่รุนแรงไม่สมมาตรและบอบบางอย่างซื่อสัตย์

การติดตั้ง

คุณต้องติดตั้ง Pytorch และ Pytorch3D เวอร์ชันที่ใช้งานได้ เราให้ไฟล์ requirements.txt ที่สามารถใช้ในการติดตั้งการพึ่งพาที่จำเป็นสำหรับการตั้งค่า Python 3.9 ด้วย Cuda 11.7:

 conda สร้าง -n smirk python = 3.9
PIP Install -r rechents.txt# ติดตั้ง pytorch3d nowpip ติดตั้ง-no-index-no-cache-dir pytorch3d -f https://dl.fbaipublicfiles.com/pytorch3d/packaging/wheels/py39_cu117_pyt201

จากนั้นเพื่อดาวน์โหลดรุ่นที่ต้องการรัน:

 bash quick_install.sh

การติดตั้งด้านบนรวมถึงการดาวน์โหลดรุ่นเปลวไฟ สิ่งนี้ต้องมีการลงทะเบียน หากคุณไม่มีบัญชีคุณสามารถลงทะเบียนได้ที่ https://flame.is.tue.mpg.de/

คำสั่งนี้จะดาวน์โหลดโมเดล Pretraned ที่ยิ้มแย้มซึ่งสามารถพบได้ใน Google Drive

การสาธิต

เราให้การสาธิตสองครั้ง หนึ่งที่สามารถใช้ทดสอบโมเดลบนภาพเดียว

 python demo.py -อินพุตตัวอย่าง/test_image2.png -OUT_Path Results/ -Checkpoint Pretrained_models/smirk_em1.pt -crop

และหนึ่งที่สามารถใช้ในการทดสอบโมเดลในวิดีโอ

 Python demo_video.py -input_path ตัวอย่าง/dafoe.mp4 -OUT_Path Results/ -Checkpoint pretrained_models/smirk_em1.pt -crop -render_orig

การฝึกอบรม

การเตรียมชุดข้อมูล

Smirk ได้รับการฝึกฝนเกี่ยวกับชุดข้อมูลต่อไปนี้: LRS3, Mead, Celeba และ FFHQ

§§ดาวน์โหลดชุดข้อมูล LRS3 จากที่นี่ เราทราบว่าขณะนี้ชุดข้อมูลนี้ถูกลบออกจากเว็บไซต์ สามารถแทนที่ด้วยชุดข้อมูลอื่น ๆ ที่คล้ายกันเช่น LRS2
ดาวน์โหลดชุดข้อมูล Mead จากที่นี่
ดาวน์โหลดชุดข้อมูล Celeba จากที่นี่ คุณสามารถดาวน์โหลดภาพที่จัดเรียงโดยตรง img_align_celeba.zip
ดาวน์โหลดชุดข้อมูล FFHQ256 จากที่นี่

หลังจากดาวน์โหลดชุดข้อมูลเราจำเป็นต้องแยกสถานที่สำคัญโดยใช้ MediaPipe และ Fan เราให้บริการสคริปต์สำหรับการประมวลผลล่วงหน้าใน datasets/preprocess_scripts ตัวอย่างการใช้งาน:

 ชุดข้อมูล Python/preprocess_scripts/apple_mediapipe_to_dataset.py -input_dir path_to_ffhq256/images -OUTPUT_DIR PATH_TO_FFHQ256/MediaPipe_landMarks

และสำหรับแฟน:

 ชุดข้อมูล Python/preprocess_scripts/applie_fan_to_dataset.py -input_dir path_to_ffhq256/images -OUTPUT_DIR PATH_TO_FFHQ256/FAN_LANDMARKS

โปรดทราบว่าสำหรับการได้รับสถานที่สำคัญของแฟน ๆ เราใช้การใช้งานใน https://github.com/hhj1897/face_alignment

ถัดไปตรวจสอบให้แน่ใจว่าได้อัปเดตไฟล์ config ใน configs ด้วยพา ธ ที่ถูกต้องไปยังชุดข้อมูลและสถานที่สำคัญของพวกเขา

การผ่าตัดก่อน

ในขั้นตอนการเตรียมการเราฝึกอบรมทั้ง 3 ตัวเข้ารหัส (ท่าทางรูปร่างและการแสดงออก) โดยใช้เฉพาะจุดสังเกตที่สกัดและเอาท์พุทของ MICA

 python train.py configs/config_pretrain.yaml train.log_path = "บันทึก/pretrain"

การฝึกอบรม

หลังจากการเตรียมการในช่วงหลักของรอยยิ้มเราจะหยุดรูปทรงและโพสต์ตัวเข้ารหัสและฝึกเข้ารหัสนิพจน์ด้วยเฟรมเวิร์กยิ้มเต็มรูปแบบ (เส้นทางการสร้างใหม่และเส้นทางรอบ)

 python train.py configs/config_train.yaml resume = logs/pretrain/first_stage_pretrained_encoder.pt train.loss_weights.emotion_loss = 1.0

การอ้างอิง

หากคุณพบว่างานนี้มีประโยชน์โปรดพิจารณาอ้าง:

 @Inproceedings {Smirk: CVPR: 2024, title = {3D การแสดงออกทางสีหน้าผ่านการวิเคราะห์โดยการสังเคราะห์-neural}, ผู้แต่ง = {retsinas, George และ Filntisis, Panagiotis P. และ Danecek, Radek และ Abrevaya, Victoria F. และ Roussos , Anastasios และ Bolkart, Timo และ Maragos, Petros}, BookTitle = {การประชุมเกี่ยวกับการมองเห็นและการจดจำรูปแบบคอมพิวเตอร์ (CVPR)}, ปี = {2024}}