ความก้าวหน้าที่สำคัญเกิดขึ้นในด้านการสร้างภาพ แต่ข้อ จำกัด ของแบบจำลองที่มีอยู่ได้ขัดขวางความเป็นเอกภาพของแบบจำลองการมองเห็นภาษา บทความนี้แนะนำโมเดลข้อความสู่ภาพใหม่ที่เรียกว่า Meissonic ซึ่งใช้เทคโนโลยี Masked Modeling (MIM) ที่ไม่ใช่แบบออตอเรติกเพื่อให้ได้รูปแบบการแพร่กระจายที่ทันสมัย (เช่น SDXL) ที่มีพารามิเตอร์เพียง 1 พันล้าน คุณภาพการสร้างภาพจำนวนมาก Meissonic ปรับปรุงประสิทธิภาพและประสิทธิภาพของ MIM อย่างมีนัยสำคัญด้วยนวัตกรรมสถาปัตยกรรมกลยุทธ์การเข้ารหัสสถานที่และเงื่อนไขการสุ่มตัวอย่างที่ดีที่สุดและบรรลุการสร้างภาพความละเอียด 1024 × 1024 บน GPU ของผู้บริโภค
หัวใจสำคัญของ Meissonic คือนวัตกรรมทางสถาปัตยกรรมกลยุทธ์การเข้ารหัสตำแหน่งขั้นสูงและเงื่อนไขการสุ่มตัวอย่างที่ดีที่สุดที่ปรับปรุงประสิทธิภาพและประสิทธิภาพของ MIM อย่างมีนัยสำคัญ นอกจากนี้ Meissonic ยังใช้ข้อมูลการฝึกอบรมที่มีคุณภาพสูงรวมตัวปรับอากาศขนาดเล็กตามคะแนนความชอบของมนุษย์และใช้เลเยอร์การบีบอัดคุณสมบัติเพื่อเพิ่มความเที่ยงตรงและความละเอียดของภาพ
ซึ่งแตกต่างจากรุ่นการแพร่กระจายขนาดใหญ่เช่น SDXL และ DeepFloyd-XL, Meissonic มีพารามิเตอร์เพียง 1 พันล้านพารามิเตอร์ แต่สามารถสร้างภาพคุณภาพสูงด้วยความละเอียด 1024 × 1024 และสามารถทำงานบน GPU เกรดผู้บริโภคที่มีหน่วยความจำวิดีโอเพียง 8GB การเพิ่มประสิทธิภาพ นอกจากนี้ Meissonic ทำให้ง่ายต่อการสร้างภาพที่มีพื้นหลังสีทึบซึ่งมักจะต้องมีการปรับแต่งแบบจำลองหรือการปรับออฟเซ็ตเสียงรบกวนในรูปแบบการแพร่กระจาย
เพื่อให้บรรลุการฝึกอบรมที่มีประสิทธิภาพกระบวนการฝึกอบรมของ Meissonic แบ่งออกเป็นสี่ขั้นตอนที่ออกแบบอย่างระมัดระวัง:
ขั้นตอนแรก: เข้าใจแนวคิดพื้นฐานจากข้อมูลขนาดใหญ่ Meissonic ใช้ชุดข้อมูล LAION-2B ที่ผ่านการกรองเพื่อฝึกที่ความละเอียด 256 × 256 เพื่อเรียนรู้แนวคิดพื้นฐาน
ขั้นตอนที่ 2: จัดเรียงข้อความและรูปภาพด้วยพรอมต์ยาว ความละเอียดการฝึกอบรมได้รับการปรับปรุงเป็น 512 × 512 และคู่ข้อความภาพสังเคราะห์คุณภาพสูงและชุดข้อมูลภายในใช้เพื่อปรับปรุงความสามารถของโมเดลในการทำความเข้าใจตัวชี้นำเชิงพรรณนาที่ยาวนาน
ขั้นตอนที่ 3: การบีบอัดคุณสมบัติหลักเพื่อให้เกิดการสร้างความละเอียดที่สูงขึ้น ด้วยการแนะนำเลเยอร์การบีบอัดคุณสมบัติ Meissonic สามารถเปลี่ยนได้อย่างราบรื่นจาก 512 × 512 เป็น 1024 × 1024 รุ่นและได้รับการฝึกฝนด้วยข้อความภาพความละเอียดสูงคุณภาพสูงที่เลือก
ขั้นตอนที่ 4: เพิ่มประสิทธิภาพการสร้างภาพความงามความละเอียดสูง ในขั้นตอนนี้แบบจำลองนี้ใช้อัตราการเรียนรู้ที่เล็กลงสำหรับการปรับแต่งและเพิ่มคะแนนการตั้งค่าของมนุษย์เป็นไมโครคอนดิชั่นเพื่อเพิ่มประสิทธิภาพของแบบจำลองในการสร้างภาพคุณภาพสูง
Meissonic แสดงให้เห็นถึงประสิทธิภาพและประสิทธิภาพที่เหนือกว่าผ่านการวัดเชิงปริมาณและเชิงคุณภาพที่หลากหลายรวมถึง HPS, MPS, การเปรียบเทียบการเปรียบเทียบและการประเมิน GPT4O เมื่อเปรียบเทียบกับ Dall-E2 และ SDXL แล้ว Meissonic ได้บรรลุประสิทธิภาพการแข่งขันทั้งประสิทธิภาพของมนุษย์และการจัดตำแหน่งข้อความในขณะที่ยังแสดงประสิทธิภาพ
นอกจากนี้ Meissonic ยังทำงานได้ดีในการแก้ไขภาพต่อภาพเป็นศูนย์ ในชุดข้อมูล EMU-EDIT Meissonic ได้รับผลลัพธ์ชั้นนำในการดำเนินการที่แตกต่างกันเจ็ดครั้งรวมถึงการเปลี่ยนแปลงพื้นหลังการเปลี่ยนแปลงเนื้อหาภาพการเปลี่ยนแปลงสไตล์การกำจัดวัตถุการเพิ่มวัตถุการดัดแปลงท้องถิ่นและการเปลี่ยนแปลงสี/พื้นผิวซึ่งทั้งหมดไม่จำเป็น ในการฝึกอบรมหรือปรับแต่งข้อมูลเฉพาะข้อมูลหรือชุดคำสั่งแก้ไขภาพ
ที่อยู่โครงการ: https://github.com/viiika/meissonic
ที่อยู่กระดาษ: https://arxiv.org/pdf/2410.08261
โดยสรุปโมเดล Meissonic ได้สร้างความก้าวหน้าอย่างมีนัยสำคัญในด้านประสิทธิภาพและคุณภาพการสร้างภาพให้คำแนะนำใหม่สำหรับการพัฒนาแบบจำลองการมองเห็นภาษาในอนาคต คุณสมบัติที่มีน้ำหนักเบาช่วยให้สามารถทำงานบนฮาร์ดแวร์ของผู้บริโภคและแสดงให้เห็นถึงความสามารถที่ทรงพลังในการแก้ไขภาพตัวอย่างเป็นศูนย์พร้อมโอกาสในการใช้งานที่กว้าง