ทีมวิจัยจากมหาวิทยาลัยแห่งชาติสิงคโปร์ได้พัฒนากรอบงานการสร้างภาพใหม่ที่เรียกว่า OminiControl ซึ่งปรับปรุงความยืดหยุ่นและประสิทธิภาพของการสร้างภาพอย่างมีนัยสำคัญผ่านกลไกการนำพารามิเตอร์กลับมาใช้ใหม่อันชาญฉลาด OminiControl ใช้แบบจำลองหม้อแปลงกระจาย (DiT) ที่ผ่านการฝึกอบรมมาแล้ว รวมกับเงื่อนไขของภาพ เพื่อให้เกิดการบูรณาการธีมที่มีประสิทธิภาพและความสามารถในการจัดตำแหน่งเชิงพื้นที่ แม้จะมีพารามิเตอร์เพิ่มเติมเพียงไม่กี่ตัว แต่ก็สามารถให้ผลลัพธ์ที่น่าทึ่งได้ สามารถจัดการงานการปรับสภาพภาพได้หลากหลาย เช่น การสร้างตามวัตถุและการจัดตำแหน่งเชิงพื้นที่โดยใช้ข้อมูล เช่น ขอบ แผนที่เชิงลึก ฯลฯ ซึ่งแสดงให้เห็นถึงข้อได้เปรียบที่ยอดเยี่ยมในงานสร้างภาพที่ขับเคลื่อนด้วยวัตถุ
ในยุคดิจิทัลปัจจุบัน เทคโนโลยีการสร้างภาพกำลังก้าวหน้าไปอย่างรวดเร็วอย่างน่าประหลาดใจ เมื่อเร็วๆ นี้ ทีมวิจัยจากมหาวิทยาลัยแห่งชาติสิงคโปร์ได้เสนอกรอบการทำงานใหม่ - OminiControl โดยมีเป้าหมายเพื่อปรับปรุงความยืดหยุ่นและประสิทธิภาพของการสร้างภาพ เฟรมเวิร์กนี้นำเสนอความสามารถในการควบคุมที่ไม่เคยมีมาก่อนโดยการรวมเงื่อนไขของภาพและการใช้งานโมเดล Diffusion Transformer (DiT) ที่ได้รับการฝึกอบรมแล้วอย่างเต็มที่
พูดง่ายๆ ก็คือ ตราบใดที่คุณระบุรูปภาพวัสดุ คุณสามารถใช้ OminiControl เพื่อรวมธีมในรูปภาพวัสดุเข้ากับรูปภาพที่สร้างขึ้นได้ ตัวอย่างเช่น บรรณาธิการอัปโหลดรูปภาพวัสดุทางด้านซ้ายและป้อนข้อความแจ้งว่า "คนชิปถูกวางไว้ข้างโต๊ะในห้องทำงานของแพทย์ โดยมีหูฟังวางอยู่บนโต๊ะ" ผลลัพธ์ที่สร้างขึ้นนั้นค่อนข้างทั่วไปดังนี้ : :
แกนหลักของ OminiControl อยู่ที่ "กลไกการใช้พารามิเตอร์ซ้ำ" กลไกนี้ช่วยให้โมเดล DiT สามารถจัดการสภาพของภาพได้อย่างมีประสิทธิภาพโดยใช้พารามิเตอร์เพิ่มเติมน้อยลง ซึ่งหมายความว่าเมื่อเปรียบเทียบกับวิธีการที่มีอยู่แล้ว OminiControl ต้องการพารามิเตอร์เพิ่มขึ้นเพียง 0.1% ถึง 0.1% เท่านั้นเพื่อให้ได้ฟังก์ชันที่มีประสิทธิภาพ นอกจากนี้ ยังสามารถจัดการงานการปรับสภาพภาพหลายอย่างได้อย่างสม่ำเสมอ เช่น การสร้างตามวัตถุและการประยุกต์ใช้เงื่อนไขการจัดตำแหน่งเชิงพื้นที่ เช่น ขอบ แผนที่ความลึก ฯลฯ ความยืดหยุ่นนี้มีประโยชน์อย่างยิ่งสำหรับงานสร้างตามหัวข้อ
ทีมวิจัยยังเน้นย้ำว่า OminiControl บรรลุความสามารถเหล่านี้โดยการฝึกสร้างภาพ ซึ่งมีความสำคัญอย่างยิ่งสำหรับการสร้างตามหัวข้อ หลังจากการประเมินอย่างละเอียด OminiControl มีประสิทธิภาพเหนือกว่าโมเดล UNet และโมเดลการปรับ DiT ที่มีอยู่อย่างมากทั้งในการสร้างตามหัวข้อและงานสร้างตามเงื่อนไขเชิงพื้นที่ ผลการวิจัยนี้นำความเป็นไปได้ใหม่ๆ มาสู่สาขาความคิดสร้างสรรค์
เพื่อสนับสนุนการวิจัยในวงกว้าง ทีมงานยังได้เผยแพร่ชุดข้อมูลการฝึกอบรมที่เรียกว่า Subjects200K ซึ่งประกอบด้วยรูปภาพที่สอดคล้องกับข้อมูลประจำตัวมากกว่า 200,000 ภาพ และจัดให้มีขั้นตอนการสังเคราะห์ข้อมูลที่มีประสิทธิภาพ ชุดข้อมูลนี้จะมอบทรัพยากรอันมีค่าแก่นักวิจัยเพื่อช่วยพวกเขาในการสำรวจงานสร้างฉันทามติในหัวข้อเพิ่มเติม
การเปิดตัว Omini ไม่เพียงแต่ปรับปรุงประสิทธิภาพและเอฟเฟกต์ของการสร้างภาพเท่านั้น แต่ยังเพิ่มความเป็นไปได้ในการสร้างสรรค์งานศิลปะอีกด้วย ในขณะที่เทคโนโลยีก้าวหน้าอย่างต่อเนื่อง การสร้างภาพในอนาคตจะมีความชาญฉลาดและเป็นส่วนตัวมากขึ้น
ประสบการณ์ออนไลน์: https://huggingface.co/spaces/Yuanshi/OminiControl
github:https://github.com/Yuanshi9815/OminiControl
บทความ: https://arxiv.org/html/2411.15098v2
ไฮไลท์:
OminiControl ใช้กลไกการนำพารามิเตอร์กลับมาใช้ใหม่เพื่อให้การควบคุมการสร้างภาพมีประสิทธิภาพและประสิทธิผลมากขึ้น
เฟรมเวิร์กสามารถจัดการงานสภาพภาพหลายงานพร้อมกัน เช่น ขอบ แผนที่เชิงลึก ฯลฯ เพื่อปรับให้เข้ากับความต้องการสร้างสรรค์ที่แตกต่างกัน
ทีมงานได้เปิดตัว Subjects200K ซึ่งเป็นชุดข้อมูลรูปภาพมากกว่า 200,000 ภาพ เพื่ออำนวยความสะดวกในการวิจัยและสำรวจเพิ่มเติม
การเกิดขึ้นของ OminiControl ถือเป็นก้าวใหม่ของเทคโนโลยีการสร้างภาพ กลไกการนำพารามิเตอร์กลับมาใช้ใหม่ที่มีประสิทธิภาพและความสามารถในการทำงานหลายอย่างพร้อมกันที่มีประสิทธิภาพทำให้ศิลปินและนักวิจัยมีเครื่องมืออันทรงพลัง และยังถือเป็นการประกาศถึงศักยภาพที่ไร้ขีดจำกัดของเทคโนโลยีการสร้างภาพในอนาคต โปรดเยี่ยมชมลิงก์ที่ให้ไว้เพื่อเรียนรู้รายละเอียดเพิ่มเติมและสัมผัสประสบการณ์ OminiControl