ทีมวิจัยจากมหาวิทยาลัยแห่งชาติสิงคโปร์ได้พัฒนากรอบการสร้างภาพใหม่ที่เรียกว่า OminiControl ซึ่งช่วยเพิ่มความยืดหยุ่นและประสิทธิภาพของการสร้างภาพได้อย่างมาก โดยผสมผสานการปรับสภาพภาพและแบบจำลองหม้อแปลงกระจาย (DiT) ที่ได้รับการฝึกอบรมล่วงหน้าอย่างชาญฉลาด เพื่อให้บรรลุความสามารถในการควบคุมที่ไม่เคยมีมาก่อน แม้แต่การรวมวัตถุที่ซับซ้อนก็ทำได้อย่างง่ายดาย โปรแกรมแก้ไข Downcodes จะทำให้คุณมีความเข้าใจในเชิงลึกเกี่ยวกับเอกลักษณ์ของ OminiControl และการเปลี่ยนแปลงที่นำมาสู่ขอบเขตการสร้างภาพ
พูดง่ายๆ ก็คือ ตราบใดที่คุณระบุรูปภาพวัสดุ คุณสามารถใช้ OminiControl เพื่อรวมธีมในรูปภาพวัสดุเข้ากับรูปภาพที่สร้างขึ้นได้ ตัวอย่างเช่น บรรณาธิการของ Downcodes อัปโหลดรูปภาพวัสดุทางด้านซ้ายและป้อนข้อความแจ้งว่า "คนชิปถูกวางไว้ข้างโต๊ะในห้องทำงานของแพทย์ โดยมีหูฟังวางอยู่บนโต๊ะ" เอฟเฟกต์ที่สร้างขึ้นนั้นค่อนข้างทั่วไป ดังต่อไปนี้:
แกนหลักของ OminiControl อยู่ที่ "กลไกการใช้พารามิเตอร์ซ้ำ" กลไกนี้ช่วยให้โมเดล DiT สามารถจัดการสภาพของภาพได้อย่างมีประสิทธิภาพโดยใช้พารามิเตอร์เพิ่มเติมน้อยลง ซึ่งหมายความว่าเมื่อเปรียบเทียบกับวิธีการที่มีอยู่แล้ว OminiControl ต้องการพารามิเตอร์เพิ่มขึ้นเพียง 0.1% ถึง 0.1% เท่านั้นเพื่อให้ได้ฟังก์ชันที่มีประสิทธิภาพ นอกจากนี้ ยังสามารถจัดการงานการปรับสภาพภาพหลายอย่างได้อย่างสม่ำเสมอ เช่น การสร้างตามวัตถุและการประยุกต์ใช้เงื่อนไขการจัดตำแหน่งเชิงพื้นที่ เช่น ขอบ แผนที่ความลึก ฯลฯ ความยืดหยุ่นนี้มีประโยชน์อย่างยิ่งสำหรับงานสร้างตามหัวข้อ
ทีมวิจัยยังเน้นย้ำว่า OminiControl บรรลุความสามารถเหล่านี้โดยการฝึกสร้างภาพ ซึ่งมีความสำคัญอย่างยิ่งสำหรับการสร้างตามหัวข้อ หลังจากการประเมินที่ครอบคลุม OminiControl มีประสิทธิภาพเหนือกว่าโมเดล UNet และโมเดลการปรับ DiT ที่มีอยู่อย่างมากทั้งในการสร้างตามหัวข้อและงานสร้างตามเงื่อนไขเชิงพื้นที่ ผลการวิจัยนี้นำความเป็นไปได้ใหม่ๆ มาสู่สาขาความคิดสร้างสรรค์
เพื่อสนับสนุนการวิจัยในวงกว้าง ทีมงานยังได้เผยแพร่ชุดข้อมูลการฝึกอบรมที่เรียกว่า Subjects200K ซึ่งประกอบด้วยรูปภาพที่สอดคล้องกับข้อมูลประจำตัวมากกว่า 200,000 ภาพ และจัดให้มีขั้นตอนการสังเคราะห์ข้อมูลที่มีประสิทธิภาพ ชุดข้อมูลนี้จะมอบทรัพยากรอันมีค่าแก่นักวิจัยเพื่อช่วยพวกเขาสำรวจงานการสร้างฉันทามติในหัวข้อเพิ่มเติม
การเปิดตัว Omini ไม่เพียงแต่ปรับปรุงประสิทธิภาพและเอฟเฟกต์ของการสร้างภาพเท่านั้น แต่ยังเพิ่มความเป็นไปได้ในการสร้างสรรค์งานศิลปะอีกด้วย
ประสบการณ์ออนไลน์: https://huggingface.co/spaces/Yuanshi/OminiControl
github:https://github.com/Yuanshi9815/OminiControl
บทความ: https://arxiv.org/html/2411.15098v2
การเกิดขึ้นของ OminiControl ถือเป็นก้าวกระโดดครั้งสำคัญในเทคโนโลยีการสร้างภาพ กลไกการใช้พารามิเตอร์ซ้ำที่มีประสิทธิภาพและความสามารถในการควบคุมอันทรงพลังได้เปิดเส้นทางใหม่สำหรับการสร้างสรรค์งานศิลปะและการวิจัยทางวิทยาศาสตร์ ในอนาคต ด้วยการพัฒนาเทคโนโลยีอย่างต่อเนื่อง ฉันเชื่อว่า OminiControl จะมีบทบาทสำคัญในสาขาอื่นๆ มากขึ้นและนำประสบการณ์การสร้างภาพที่น่าตื่นตาตื่นใจยิ่งขึ้นมาให้เรา