คำอธิบายประกอบ FER+ มอบชุดป้ายกำกับใหม่สำหรับชุดข้อมูล Emotion FER มาตรฐาน ใน FER+ แต่ละภาพจะมีการติดป้ายกำกับโดยแท็กเกอร์ที่มาจากฝูงชน 10 คน ซึ่งให้คุณภาพความเป็นจริงที่ดีกว่าสำหรับอารมณ์ความรู้สึกของภาพนิ่งมากกว่าป้าย FER ดั้งเดิม การมีแท็กเกอร์ 10 อันสำหรับแต่ละภาพช่วยให้นักวิจัยสามารถประเมินการกระจายความน่าจะเป็นทางอารมณ์ต่อใบหน้าได้ ซึ่งช่วยให้สามารถสร้างอัลกอริธึมที่สร้างการแจกแจงทางสถิติหรือเอาท์พุตแบบหลายฉลาก แทนเอาท์พุตแบบฉลากเดียวทั่วไป ตามที่อธิบายไว้ใน: https://arxiv.org/abs/1608.01041
ต่อไปนี้คือตัวอย่างบางส่วนของฉลาก FER กับ FER+ ที่ดึงมาจากกระดาษที่กล่าวถึงข้างต้น (FER บน, FER+ ล่าง):
ไฟล์ป้ายกำกับใหม่ชื่อ fer2013new.csv และมีจำนวนแถวเท่ากันกับไฟล์ป้ายกำกับ fer2013.csv ดั้งเดิมที่มีลำดับเดียวกัน เพื่อให้คุณอนุมานได้ว่าแท็กอารมณ์ใดเป็นของรูปภาพใด เนื่องจากเราไม่สามารถโฮสต์เนื้อหารูปภาพจริงได้ โปรดดูชุดข้อมูล FER ดั้งเดิมที่นี่: https://www.kaggle.com/c/challenges-in-representation-learning-facial-expression-recognition-challenge/data
รูปแบบของไฟล์ CSV เป็นดังนี้: การใช้งาน เป็นกลาง ความสุข ความประหลาดใจ ความเศร้า ความโกรธ ความรังเกียจ ความกลัว การดูถูก ไม่ทราบ NF คอลัมน์ "การใช้งาน" เหมือนกับป้ายกำกับ FER ดั้งเดิมเพื่อแยกความแตกต่างระหว่างชุดการฝึกอบรม การทดสอบสาธารณะ และชุดการทดสอบส่วนตัว คอลัมน์อื่นๆ คือการนับคะแนนสำหรับแต่ละอารมณ์ โดยเติมไม่ทราบและ NF (ไม่ใช่ใบหน้า)
นอกจากนี้เรายังจัดเตรียมโค้ดการฝึกอบรมพร้อมการใช้งานสำหรับโหมดการฝึกอบรมทั้งหมด (ส่วนใหญ่ ความน่าจะเป็น เอนโทรปีข้าม และหลายป้ายกำกับ) ที่อธิบายไว้ใน https://arxiv.org/abs/1608.01041 รหัสการฝึกอบรมใช้ MS Cognitive Toolkit (เดิมคือ CNTK) ซึ่งมีอยู่ใน: https://github.com/Microsoft/CNTK
หลังจากติดตั้ง Cognitive Toolkit และดาวน์โหลดชุดข้อมูล (เราจะพูดถึงเค้าโครงชุดข้อมูลต่อไป) คุณสามารถเรียกใช้สิ่งต่อไปนี้เพื่อเริ่มการฝึกอบรม:
python train.py -d -m majority
python train.py -d -m probability
python train.py -d -m crossentropy
python train.py -d -m multi_target
มีโฟลเดอร์ชื่อ data ซึ่งมีเค้าโครงดังต่อไปนี้:
/data
/FER2013Test
label.csv
/FER2013Train
label.csv
/FER2013Valid
label.csv
label.csv ในแต่ละโฟลเดอร์จะมีป้ายกำกับจริงสำหรับแต่ละรูปภาพ ชื่อรูปภาพอยู่ในรูปแบบต่อไปนี้: ferXXXXXXXX.png โดยที่ XXXXXXXXX คือดัชนีแถวของไฟล์ FER csv ต้นฉบับ นี่คือชื่อของภาพสองสามภาพแรก:
fer0000000.png
fer0000001.png
fer0000002.png
fer0000003.png
โฟลเดอร์เหล่านี้ไม่มีรูปภาพจริง คุณจะต้องดาวน์โหลดจาก https://www.kaggle.com/c/challenges-in-representation-learning-facial-expression-recognition-challenge/data จากนั้นแตกไฟล์ รูปภาพจากไฟล์ FER csv ในลักษณะที่รูปภาพทั้งหมดที่สอดคล้องกับ "Training" ไปที่โฟลเดอร์ FER2013Train รูปภาพทั้งหมดที่สอดคล้องกับ "PublicTest" ไปที่ โฟลเดอร์ FER2013Valid และรูปภาพทั้งหมดที่สอดคล้องกับ "PrivateTest" ไปที่โฟลเดอร์ FER2013Test หรือคุณสามารถใช้สคริปต์ generate_training_data.py
เพื่อทำทุกสิ่งข้างต้นให้คุณตามที่กล่าวไว้ในส่วนถัดไป
เราจัดเตรียมสคริปต์ง่ายๆ generate_training_data.py
ใน python ซึ่งรับ fer2013.csv และ fer2013new.csv เป็นอินพุต รวมไฟล์ CSV ทั้งสองไฟล์ และส่งออกรูปภาพทั้งหมดเป็นไฟล์ PNG เพื่อให้เทรนเนอร์ดำเนินการ
python generate_training_data.py -d -fer -ferplus
หากคุณใช้ป้ายกำกับ FER+ ใหม่ หรือโค้ดตัวอย่าง หรือบางส่วนในการวิจัยของคุณ โปรดอ้างอิงสิ่งต่อไปนี้:
@inproceedings{BarsoumICMI2016,
title={การฝึกอบรมเครือข่ายเชิงลึกสำหรับการจดจำการแสดงออกทางสีหน้าด้วยการกระจายป้ายกำกับที่มาจากฝูงชน},
ผู้แต่ง={Barsoum, Emad และ Zhang, Cha และ Canton Ferrer, Cristian และ Zhang, Zhengyou},
booktitle={การประชุมนานาชาติ ACM ว่าด้วยปฏิสัมพันธ์หลายรูปแบบ (ICMI)},
ปี={2016}
-