บทความนี้จะแนะนำอะแดปเตอร์โมเดลการแพร่กระจายใหม่ VMix ที่เสนอโดยทีมวิจัยของ ByteDance และมหาวิทยาลัยวิทยาศาสตร์และเทคโนโลยีแห่งประเทศจีน โดยมีเป้าหมายเพื่อปรับปรุงคุณภาพและเอฟเฟกต์ความสวยงามของการสร้างข้อความเป็นรูปภาพ VMix ใช้วิธีการควบคุมแบบมีเงื่อนไขอันชาญฉลาดเพื่อเพิ่มประสิทธิภาพความสวยงามของโมเดลการแพร่กระจายที่มีอยู่ และรักษาความสอดคล้องระหว่างรูปภาพและคำอธิบายข้อความโดยไม่ต้องฝึกอบรมโมเดลใหม่ โดยแยกย่อยข้อความออกเป็นเนื้อหาและคำอธิบายเกี่ยวกับสุนทรียภาพ และผสานรวมข้อมูลด้านสุนทรียศาสตร์เข้ากับกระบวนการสร้างภาพผ่านกลไกการสนใจข้ามแบบผสมผสาน เพื่อให้เกิดการควบคุมสุนทรียศาสตร์ของภาพอย่างละเอียด อะแดปเตอร์นี้เข้ากันได้กับโมเดลชุมชนที่หลากหลาย และมีแนวโน้มการใช้งานที่หลากหลาย
ในด้านการสร้างภาพจากข้อความ โมเดลการแพร่กระจายได้แสดงให้เห็นถึงความสามารถพิเศษ แต่ยังคงมีข้อบกพร่องบางประการในการสร้างภาพที่สวยงาม เมื่อเร็วๆ นี้ ทีมวิจัยจาก ByteDance และมหาวิทยาลัยวิทยาศาสตร์และเทคโนโลยีแห่งประเทศจีนได้เสนอเทคโนโลยีใหม่ที่เรียกว่าอะแดปเตอร์ "Cross-Attention Value Mixing Control" (VMix) ซึ่งมีจุดมุ่งหมายเพื่อปรับปรุงคุณภาพของภาพที่สร้างขึ้นและรักษาความไวต่อภาพต่างๆ ความเก่งกาจของแนวคิด
แนวคิดหลักของอะแดปเตอร์ VMix คือการเพิ่มประสิทธิภาพความสวยงามของโมเดลการแพร่กระจายที่มีอยู่โดยการออกแบบวิธีการควบคุมแบบมีเงื่อนไขที่เหนือกว่าในขณะเดียวกันก็รับประกันการจัดตำแหน่งระหว่างรูปภาพและข้อความ
อะแดปเตอร์นี้บรรลุเป้าหมายโดยหลักๆ ด้วยสองขั้นตอน: ขั้นแรก แยกย่อยข้อความอินพุตออกเป็นคำอธิบายเนื้อหาและคำอธิบายเกี่ยวกับสุนทรียภาพโดยการเริ่มต้นการฝังสุนทรียภาพ ประการที่สองในระหว่างกระบวนการ denoising โดยการผสมผสานความสนใจข้ามมิติ รวมเอาเงื่อนไขด้านสุนทรียภาพเข้าไปเพื่อปรับปรุง เอฟเฟกต์สุนทรียศาสตร์ของภาพและรักษาความสอดคล้องระหว่างรูปภาพและคำที่พร้อมท์ - ความยืดหยุ่นของแนวทางนี้ทำให้ VMix สามารถนำไปใช้กับโมเดลชุมชนต่างๆ ได้โดยไม่ต้องฝึกอบรมใหม่ จึงช่วยปรับปรุงประสิทธิภาพด้านภาพ
นักวิจัยได้ตรวจสอบประสิทธิภาพของ VMix ผ่านชุดการทดลอง และผลลัพธ์แสดงให้เห็นว่าวิธีการดังกล่าวมีประสิทธิภาพเหนือกว่าวิธีการล้ำสมัยอื่นๆ ในการสร้างภาพที่สวยงาม ในเวลาเดียวกัน VMix ยังเข้ากันได้กับโมดูลชุมชนที่หลากหลาย (เช่น LoRA, ControlNet และ IPAdapter) ซึ่งขยายขอบเขตแอปพลิเคชันให้กว้างขึ้นอีก
การควบคุมความสวยงามอย่างละเอียดของ VMix สะท้อนให้เห็นในความสามารถในการปรับการฝังความสวยงาม ซึ่งสามารถปรับปรุงมิติเฉพาะของภาพผ่านป้ายความงามแบบมิติเดียว หรือปรับปรุงคุณภาพของภาพโดยรวมผ่านป้ายความงามด้านหน้าที่สมบูรณ์ ในการทดลอง เมื่อผู้ใช้ได้รับคำอธิบายเป็นข้อความ เช่น "เด็กผู้หญิงพิงหน้าต่าง สายลมที่พัดมา ภาพบุคคลในฤดูร้อน ภาพถ่ายที่มีความยาวปานกลาง" อะแดปเตอร์ VMix สามารถปรับปรุงความสวยงามของภาพที่สร้างขึ้นได้อย่างมาก
อะแดปเตอร์ VMix เปิดทิศทางใหม่ในการปรับปรุงคุณภาพความสวยงามของการสร้างข้อความเป็นรูปภาพ และคาดว่าจะตระหนักถึงศักยภาพในการใช้งานที่หลากหลายมากขึ้นในอนาคต
ทางเข้าโครงการ: https://vmix-diffusion.github.io/VMix/
ไฮไลท์:
อะแดปเตอร์ VMix แยกย่อยข้อความแจ้งเป็นเนื้อหาและคำอธิบายด้านสุนทรียศาสตร์ผ่านการฝังด้านสุนทรียภาพ ซึ่งช่วยเพิ่มคุณภาพของการสร้างภาพ
อะแดปเตอร์นี้เข้ากันได้กับโมเดลชุมชนหลายแบบ ช่วยให้ผู้ใช้สามารถปรับปรุงเอฟเฟ็กต์ภาพโดยไม่ต้องฝึกอบรมใหม่
ผลการทดลองแสดงให้เห็นว่า VMix มีประสิทธิภาพเหนือกว่าเทคโนโลยีที่มีอยู่ในการสร้างความสวยงามและมีศักยภาพในการใช้งานในวงกว้าง
โดยรวมแล้ว อะแดปเตอร์ VMix มอบโซลูชันที่มีประสิทธิภาพสำหรับการปรับปรุงศิลปะและความสวยงามของการสร้างภาพ AI นอกจากนี้ยังทำงานได้อย่างโดดเด่นในแง่ของความเข้ากันได้และความสะดวกในการใช้งาน ซึ่งเป็นแนวทางใหม่และความเป็นไปได้สำหรับการพัฒนาเทคโนโลยีการสร้างภาพในอนาคต