การถ่ายโอนสไตล์ประสาทเป็นเทคนิคการปรับให้เหมาะสมที่ใช้ในการถ่ายภาพสองภาพ - รูปภาพเนื้อหาและรูปภาพอ้างอิงสไตล์ (เช่น งานศิลปะของจิตรกรชื่อดัง) - และผสมผสานเข้าด้วยกันเพื่อให้ภาพที่ส่งออกดูเหมือนรูปภาพในเนื้อหา แต่ "ทาสี" ในรูปแบบของรูปภาพอ้างอิงสไตล์
ซึ่งดำเนินการโดยการปรับภาพที่ส่งออกให้เหมาะสมเพื่อให้ตรงกับสถิติเนื้อหาของภาพเนื้อหาและสถิติสไตล์ของภาพอ้างอิงสไตล์ สถิติเหล่านี้ดึงมาจากภาพโดยใช้เครือข่ายแบบหมุนวน
หากต้องการเรียกใช้โน้ตบุ๊ก โปรดโคลนที่เก็บนี้ เริ่มเซิร์ฟเวอร์โน้ตบุ๊ก Jupyter ในไดเร็กทอรีที่ถูกต้อง และเปิดโน้ตบุ๊กชื่อ style_transfer_gan.ipynb
สมุดบันทึกนี้ยังมีโค้ดสำหรับบทช่วยสอนเกี่ยวกับวิธีการถ่ายโอนสไตล์ รหัสสำหรับข้อมูลใน repo นี้กระจัดกระจายไปทั่ว
หากต้องการดูโค้ด StarGan โปรดเปิดสมุดบันทึกชื่อ StarGAN_v2_celeb_face_synthesizer.ipynb
สไตล์ศิลปะที่เราใช้สามารถพบได้ในโฟลเดอร์ art-styles
และมีดังต่อไปนี้:
เราใช้ใบหน้าคนดังสามหน้าสำหรับสมุดบันทึกการถ่ายโอนสไตล์ดั้งเดิม: celebrity-faces/male/the-weeknd.jpg
, celebrity-faces/male/wesley-snipes.jpg
และ celebrity-faces/female/lady-gaga.jpg
สำหรับสมุดบันทึก StarGAN เราใช้ภาพถ่ายที่เลือกจากชุดข้อมูล Celeb A-HQ นี่คือภาพถ่ายที่เหลืออยู่ในไดเร็กทอรี celebrity-faces/
ส่วนนี้จะสำรวจผลงานใน style_transfer_gan.ipynb
เพื่อทำความเข้าใจว่าการถ่ายโอนสไตล์ประสาททำงานอย่างไรบนใบหน้าที่แตกต่างกัน เราได้ป้อนรูปภาพเนื้อหา (ใบหน้า) หลายภาพผ่านแบบจำลองของเรา และเลือกสามภาพที่เราตัดสินใจว่าจะให้สีผิวและโครงสร้างใบหน้าที่แตกต่างกันเพียงพอ สำหรับแต่ละใบหน้า เราใช้สไตล์ศิลปะทั้ง 10 สไตล์ที่ระบุไว้ข้างต้นเป็นรูปภาพอ้างอิงสไตล์ของเรา แนวโน้มทั่วไปที่เราสังเกตเห็นคือสไตล์ที่คล้ายคลึงกับใบหน้าของบุคคลและพื้นหลังรูปภาพมากกว่าจะให้ผลลัพธ์ที่ดีกว่าสไตล์ที่แตกต่างกันมาก
สำหรับ The Weeknd เราเลือกภาพที่ถ่ายหลังจากที่เขาทำศัลยกรรมพลาสติก ซึ่งทำให้เขามีโครงสร้างใบหน้าที่แตกต่างออกไปอย่างเห็นได้ชัด ในกรณีของเขา เราพบว่าสไตล์ที่แตกต่างจากบรรทัดฐาน เช่น ลัทธิคิวบิสม์หรือลัทธิเหนือจริงพอๆ กัน ให้ผลลัพธ์ที่ดีกว่าสไตล์อย่างคลาสสิก (ดูด้านล่าง)
ภาพเหนือจริงกับภาพคลาสสิกปรากฏบนใบหน้าของ The Weeknd
ในทำนองเดียวกัน เนื่องจากโทนสีผิวของ Wesley Snipes เข้มขึ้น และสีในพื้นหลังของภาพต้นฉบับของเขาก็ถูกปิดเสียงมากกว่า ดังนั้นสไตล์ที่มีโทนสีคล้ายกันจึงมีความแม่นยำมากกว่า เปรียบเทียบผลลัพธ์ของลัทธิเขียนภาพแบบเหลี่ยมและแบบโฟวิสม์ด้านล่าง:
Cubism และ Fauvism ส่งผลให้ใบหน้าของ Wesley Snipes
อย่างไรก็ตาม ผลลัพธ์ของเลดี้ กาก้านั้นยิ่งใหญ่กว่านั้นมาก สไตล์ส่วนใหญ่ยังคงสามารถเก็บรายละเอียดบางส่วนของใบหน้าของเธอได้โดยไม่เกิดการสูญเสียมากเกินไป อย่างที่คุณเห็น fauvism ซึ่งใช้ไม่ได้กับใบหน้าของ Wesley Snipes ทำงานได้ดีกว่ามากที่นี่
Fauvsim vs. Classicism ปรากฏบนใบหน้าของ Lady Gaga
มีเหตุผลหลายประการที่ใบหน้าของ Lady Gaga สามารถให้ผลลัพธ์ที่ดีกว่าโดยทั่วไป แต่คำอธิบายที่เป็นไปได้คือข้อมูลที่ใช้ในการฝึกโมเดลการถ่ายโอนสไตล์ หากแบบจำลองได้รับใบหน้าสีขาวมากขึ้นในการฝึก แบบจำลองนั้นน่าจะทำงานได้ดีกว่าเมื่อใช้ใบหน้าสีขาวในการทดสอบ
ส่วนนี้จะสำรวจผลงานใน StarGAN_v2_celeb_face_synthesizer.ipynb
StarGAN v2 ซึ่งเป็นโมเดลการแปลภาพที่พัฒนาโดย Clova AI เรียนรู้การทำแผนที่ระหว่างภาพต่างๆ เราใช้เครือข่าย Star GAN ที่ได้รับการฝึกอบรมล่วงหน้าด้วยชุดข้อมูล CelebA-HQ รวมถึงชุดใบหน้าของคนดังในเพศ สีผิว ลักษณะใบหน้า และการปรับเปลี่ยนใบหน้า/ร่างกาย (รอยสัก และการทำศัลยกรรม) เป็นชุดข้อมูลรูปภาพต้นฉบับของเรา และชุดข้อมูล CelebA-HQ เป็นชุดข้อมูลรูปภาพอ้างอิงของเรา ชุดข้อมูลต้นฉบับของเราแบ่งออกเป็นสองโดเมน: เพศหญิงและชาย
ต่อไปนี้เป็นรายการรูปภาพต้นฉบับที่เราเลือกสังเคราะห์
โรเชล ฮูมส์ | อาเรียนา แกรนด์ | เลดี้กาก้า | เจนนิเฟอร์ ลอว์เรนซ์ |
---|---|---|---|
![]() | ![]() | ![]() | ![]() |
คริส เฮมส์เวิร์ธ | ไมค์ ไทสัน | โดนัลด์ ทรัมป์ | เดอะวีคเอนด์ | เวสลีย์ สไนปส์ |
---|---|---|---|---|
![]() | ![]() | ![]() | ![]() | ![]() |
เราแปลงรูปภาพที่เลือกทั้งหมดโดยการครอบตัดรูปภาพให้มีอัตราส่วนประมาณ 1:1 เท่าที่เป็นไปได้ โดยให้ใบหน้าอยู่ตรงกลาง และกินพื้นที่ส่วนใหญ่ของรูปภาพ จากนั้นเราปรับแต่งรูปภาพเพื่อการหมุนและการครอบตัดแบบละเอียดเพิ่มเติมโดยใช้เครื่องมือในตัวที่ Clova AI มอบให้ สุดท้าย เราป้อนอิมเมจที่ปรับแต่งอย่างดีเหล่านี้ไปยังเครือข่าย StarGAN ที่ได้รับการฝึกล่วงหน้า และสร้างอิมเมจเอาต์พุตที่สังเคราะห์ขึ้น
ผลลัพธ์ของเราแสดงให้เห็นว่าลักษณะใบหน้าที่โดดเด่น เช่น กรามและริมฝีปากที่แข็งแรง ถูกแพร่กระจายไปตามเพศและสีผิวที่แตกต่างกันไปยังภาพที่สร้างขึ้น/ส่งออก สำหรับใบหน้าเช่น The Weeknd's ที่ได้รับการดัดแปลงใบหน้า (เช่น การทำศัลยกรรมพลาสติก) เราสังเกตเห็นว่าคุณสมบัติเหล่านี้ยังคงชัดเจนในภาพที่สร้างขึ้น อย่างไรก็ตาม ภาพที่สร้างขึ้นไม่สมจริงเท่าที่ควร ตามที่คาดไว้ คุณสมบัติระดับสูง เช่น ทรงผม การแต่งหน้า เครา และสีผิว จะถูกติดตามจากภาพอ้างอิง อย่างไรก็ตาม คุณสมบัติอื่นๆ เช่น รอยสัก ดูเหมือนจะถูกเก็บรักษาไว้จากภาพต้นฉบับ ในทำนองเดียวกัน โมเดลยังคงรักษาท่าทางและเอกลักษณ์ของภาพต้นฉบับไว้ในภาพที่ส่งออกส่วนใหญ่
ผลลัพธ์ของการทดลองของเราแสดงไว้ด้านล่าง