บทความนี้จะสำรวจความก้าวหน้าล่าสุดในเทคโนโลยีการถ่ายโอนรูปแบบรูปภาพที่ขับเคลื่อนด้วยข้อความและความท้าทายที่ต้องเผชิญ ในช่วงไม่กี่ปีที่ผ่านมา โมเดลการสร้างข้อความเป็นรูปภาพมีความก้าวหน้าอย่างมาก ทำให้สามารถถ่ายโอนสไตล์ที่ละเอียดยิ่งขึ้น แต่ปัญหาต่างๆ เช่น การจัดรูปแบบมากเกินไป การจัดแนวข้อความที่ไม่ถูกต้อง และการสร้างอาร์ติแฟกต์ยังคงมีอยู่ เพื่อที่จะแก้ไขปัญหาเหล่านี้ นักวิจัยได้เสนอกลยุทธ์เสริม 3 ประการ ได้แก่ การผสมผสานข้ามโมดัลที่ใช้ AdaIN, คำแนะนำแบบไม่มีตัวแยกประเภทตามสไตล์ (SCFG) และการใช้แบบจำลองครูเพื่อรักษาเสถียรภาพของเลย์เอาต์ และตรวจสอบประสิทธิภาพผ่านการทดลอง ซึ่งแสดง สิ่งนี้ช่วยปรับปรุงคุณภาพของภาพที่สร้างขึ้นอย่างมากและความสอดคล้องกับตัวชี้นำข้อความ
การถ่ายโอนรูปแบบที่ขับเคลื่อนด้วยข้อความเป็นงานสำคัญในด้านการสังเคราะห์ภาพ โดยมีจุดมุ่งหมายเพื่อผสมผสานรูปแบบของภาพอ้างอิงกับเนื้อหาที่อธิบายโดยข้อความแจ้ง เมื่อเร็วๆ นี้ มีความก้าวหน้าที่สำคัญในโมเดลการสร้างข้อความเป็นรูปภาพ ช่วยให้สามารถถ่ายโอนสไตล์ที่ละเอียดยิ่งขึ้นในขณะที่ยังคงรักษาความเที่ยงตรงของเนื้อหาในระดับสูง เทคโนโลยีนี้มีคุณค่าในทางปฏิบัติอย่างมากในด้านต่างๆ เช่น การวาดภาพดิจิทัล การโฆษณา และการออกแบบเกม
อย่างไรก็ตาม เทคนิคการถ่ายโอนสไตล์ที่มีอยู่ยังคงมีข้อบกพร่องบางประการ ได้แก่:
การปรับสไตล์ให้เหมาะสมเกินไป: โมเดลที่มีอยู่มีแนวโน้มที่จะคัดลอกองค์ประกอบทั้งหมดของรูปภาพอ้างอิง ทำให้รูปภาพที่สร้างขึ้นใกล้เคียงกับคุณลักษณะของรูปภาพสไตล์อ้างอิงมากเกินไป ซึ่งจำกัดความยืดหยุ่นด้านสุนทรียภาพและความสามารถในการปรับตัวของรูปภาพที่สร้างขึ้น
การจัดแนวข้อความไม่ถูกต้อง: โมเดลอาจจัดลำดับความสำคัญของสีหรือลวดลายที่โดดเด่นของรูปภาพอ้างอิง แม้ว่าองค์ประกอบเหล่านี้จะขัดแย้งกับคำแนะนำในข้อความแจ้งก็ตาม
การสร้างอาร์ติแฟกต์: การถ่ายโอนสไตล์อาจทำให้เกิดอาร์ติแฟกต์ที่ไม่ต้องการ เช่น รูปแบบที่เกิดซ้ำ (เช่น เอฟเฟกต์กระดานหมากรุก) ที่รบกวนเค้าโครงโดยรวมของรูปภาพ
เพื่อแก้ไขปัญหาเหล่านี้ นักวิจัยได้เสนอกลยุทธ์เสริม 3 ประการ:
การผสมผสานข้ามโมดัลที่ใช้ AdaIN: ใช้กลไก Adaptive Instance Normalization (AdaIN) เพื่อรวมคุณสมบัติรูปภาพสไตล์เข้ากับคุณสมบัติข้อความ จากนั้นหลอมรวมคุณสมบัติเหล่านั้นเข้ากับคุณสมบัติรูปภาพ การผสมผสานที่ปรับเปลี่ยนได้นี้จะสร้างลายเซ็นคำแนะนำที่เหนียวแน่นยิ่งขึ้น โดยการปรับสไตล์ให้สอดคล้องกับคำแนะนำแบบข้อความอย่างกลมกลืนมากขึ้น AdaIN ผสานรวมสไตล์เข้ากับเนื้อหาได้อย่างมีประสิทธิภาพโดยการปรับลักษณะเนื้อหาเพื่อสะท้อนสถิติสไตล์ ในขณะที่ยังคงรักษาความสอดคล้องของเนื้อหาและคำอธิบายข้อความ
คำแนะนำแบบไม่มีตัวแยกประเภทตามสไตล์ (SCFG): พัฒนาวิธีการแนะนำสไตล์ที่เน้นไปที่สไตล์เป้าหมายและลดคุณสมบัติสไตล์ที่ไม่จำเป็น ด้วยการใช้แบบจำลองการสร้างที่ควบคุมด้วยเลย์เอาต์ (เช่น ControlNet) อิมเมจ "เนกาทีฟ" จะถูกสร้างขึ้นโดยไม่มีสไตล์เป้าหมาย รูปภาพเนกาทีฟนี้ทำหน้าที่เหมือนสัญญาณ "ว่างเปล่า" ในโมเดลการแพร่กระจาย ช่วยให้ไกด์มุ่งความสนใจไปที่องค์ประกอบสไตล์เป้าหมายทั้งหมด
การรักษาเสถียรภาพของเลย์เอาต์โดยใช้แบบจำลองครู: แนะนำแบบจำลองครูในระยะแรกของการสร้าง โมเดลครูอิงตามโมเดลการแปลงข้อความเป็นรูปภาพดั้งเดิม ดำเนินการสร้างการลดสัญญาณรบกวนด้วยคิวข้อความเดียวกันพร้อมกันกับโมเดลสไตล์ และแบ่งปันแผนผังความสนใจเชิงพื้นที่ในแต่ละขั้นตอนของเวลา วิธีการนี้ช่วยให้มั่นใจได้ถึงการกระจายเชิงพื้นที่ที่เสถียรและสม่ำเสมอ ช่วยลดปัญหาต่างๆ เช่น สิ่งประดิษฐ์กระดานหมากรุกได้อย่างมีประสิทธิภาพ นอกจากนี้ยังได้เค้าโครงเชิงพื้นที่ที่สอดคล้องกันของข้อความแจ้งเดียวกันสำหรับรูปภาพอ้างอิงในสไตล์ที่แตกต่างกัน
นักวิจัยตรวจสอบประสิทธิผลของวิธีการเหล่านี้ผ่านการทดลองอย่างกว้างขวาง ผลลัพธ์แสดงให้เห็นว่าวิธีนี้สามารถปรับปรุงคุณภาพของการถ่ายโอนสไตล์ของรูปภาพที่สร้างขึ้นได้อย่างมาก และรักษาความสอดคล้องกับคิวข้อความ ที่สำคัญกว่านั้นคือ วิธีการนี้สามารถรวมเข้ากับเฟรมเวิร์กการถ่ายโอนสไตล์ที่มีอยู่ได้โดยไม่ต้องปรับแต่งอย่างละเอียด
นักวิจัยค้นพบจากการทดลองว่าความไม่แน่นอนในกลไกการสนใจข้ามสามารถนำไปสู่การปรากฏตัวของสิ่งประดิษฐ์ได้ กลไกการเอาใจใส่ในตนเองมีบทบาทสำคัญในการรักษาเค้าโครงและโครงสร้างเชิงพื้นที่ของภาพโดยการบันทึกความสัมพันธ์เชิงพื้นที่ระดับสูงเพื่อรักษาเสถียรภาพของเค้าโครงพื้นฐานระหว่างการสร้าง ด้วยการเลือกแทนที่แผนที่การเอาใจใส่ตนเองบางส่วนในภาพเก๋ไก๋ จึงสามารถรักษาความสัมพันธ์เชิงพื้นที่ของคุณลักษณะหลักๆ ในภาพได้ ทำให้มั่นใจได้ว่าเค้าโครงหลักยังคงสอดคล้องกันตลอดกระบวนการลดสัญญาณรบกวน
นอกจากนี้ คำแนะนำแบบไม่ใช้ตัวแยกประเภทตามสไตล์ (SCFG) จะช่วยแก้ปัญหาความคลุมเครือของสไตล์ได้อย่างมีประสิทธิภาพ ซึ่งสามารถเน้นย้ำองค์ประกอบสไตล์ที่ต้องการโดยเน้นในขณะที่กรองคุณลักษณะที่ไม่เกี่ยวข้องหรือขัดแย้งกันออกไป วิธีการนี้ช่วยลดความเสี่ยงในการติดตั้งส่วนประกอบสไตล์ที่ไม่เกี่ยวข้องมากเกินไปโดยใช้โมเดลที่ควบคุมด้วยเลย์เอาต์เพื่อสร้างรูปภาพสไตล์เนกาทีฟ ช่วยให้โมเดลมุ่งเน้นไปที่การส่งส่วนประกอบสไตล์ที่ต้องการ
นักวิจัยยังได้ทำการทดลองระเหยเพื่อประเมินผลกระทบของส่วนประกอบแต่ละส่วน ผลลัพธ์แสดงให้เห็นว่าทั้งแบบจำลองการผสมข้ามโมดัลที่ใช้ AdaIN และแบบจำลองครูสามารถปรับปรุงความแม่นยำของการจัดตำแหน่งข้อความได้อย่างมาก และทั้งสองอย่างนี้มีผลกระทบที่เสริมกัน
โดยสรุป วิธีการที่นำเสนอในการศึกษานี้สามารถบรรเทาปัญหาความไม่เสถียรของสไตล์ที่มากเกินไปและความไม่เสถียรของเลย์เอาต์ที่มีอยู่ในเทคนิคการถ่ายโอนสไตล์ที่ขับเคลื่อนด้วยข้อความที่มีอยู่ได้อย่างมีประสิทธิภาพ จึงทำให้การสร้างภาพมีคุณภาพสูงขึ้น และให้การสนับสนุนงานการสังเคราะห์ข้อความเป็นภาพ ความหลากหลายและ โซลูชั่นอันทรงพลัง
ที่อยู่กระดาษ: https://arxiv.org/pdf/2412.08503
งานวิจัยนี้นำเสนอแนวทางแก้ไขที่มีประสิทธิภาพสำหรับความท้าทายหลักในการถ่ายโอนรูปแบบภาพที่ขับเคลื่อนด้วยข้อความ ซึ่งนำมาซึ่งความก้าวหน้าครั้งใหม่ในด้านการสร้างภาพคุณภาพสูงและการสังเคราะห์ข้อความเป็นภาพ ผลการวิจัยมีโอกาสนำไปใช้ในวงกว้างและสมควรได้รับการศึกษาและสำรวจเชิงลึกเพิ่มเติม