เครื่องมือแก้ไขของ Downcodes จะพาคุณไปเรียนรู้เกี่ยวกับ Meissonic ซึ่งเป็นโมเดลการสร้างข้อความเป็นรูปภาพที่มีพารามิเตอร์เพียง 1 พันล้านพารามิเตอร์ที่สามารถสร้างรูปภาพความละเอียดสูงขนาด 1024×1024 ได้ มันทลายข้อจำกัดของโมเดล เช่น Stable Diffusion และยกระดับเทคโนโลยี non-autoregressive mask image modeling (MIM) ขึ้นไปอีกระดับหนึ่ง ประสิทธิภาพและประสิทธิผลเทียบได้กับโมเดลการแพร่กระจายชั้นนำ เช่น SDXL นวัตกรรมของ Meissonic อยู่ที่การออกแบบสถาปัตยกรรมที่เป็นเอกลักษณ์ กลยุทธ์การเข้ารหัสตำแหน่งขั้นสูง และเงื่อนไขการสุ่มตัวอย่างที่ได้รับการปรับปรุง ซึ่งทำให้สามารถทำงานบน GPU ระดับผู้บริโภคโดยไม่ต้องเพิ่มประสิทธิภาพเพิ่มเติม ที่น่าแปลกใจยิ่งกว่านั้นคือสามารถสร้างภาพที่มีพื้นหลังสีทึบได้อย่างง่ายดาย ซึ่งโดยปกติแล้วจะต้องมีการปรับเปลี่ยนที่ซับซ้อนในแบบจำลองการแพร่กระจาย
แกนหลักของ Meissonic อยู่ที่ชุดนวัตกรรมทางสถาปัตยกรรม กลยุทธ์การเข้ารหัสตำแหน่งขั้นสูง และเงื่อนไขการสุ่มตัวอย่างที่ได้รับการปรับปรุงให้เหมาะสม การปรับปรุงเหล่านี้ปรับปรุงประสิทธิภาพและประสิทธิภาพของ MIM อย่างมีนัยสำคัญ นอกจากนี้ Meissonic ยังใช้ประโยชน์จากข้อมูลการฝึกอบรมคุณภาพสูง ผสานรวมการปรับสภาพแบบไมโครตามคะแนนความชอบของมนุษย์ และใช้เลเยอร์การบีบอัดฟีเจอร์เพื่อเพิ่มความคมชัดและความละเอียดของภาพให้ดียิ่งขึ้น
ต่างจากรุ่นการแพร่กระจายขนาดใหญ่ เช่น SDXL และ DeepFloyd-XL โดย Meissonic มีพารามิเตอร์เพียง 1 พันล้านพารามิเตอร์ แต่สามารถสร้างภาพคุณภาพสูงที่มีความละเอียด 1024×1024 และสามารถทำงานบน GPU ระดับผู้บริโภคที่มีหน่วยความจำวิดีโอเพียง 8GB โดยไม่ต้องมีรุ่นเพิ่มเติมใด ๆ การเพิ่มประสิทธิภาพ นอกจากนี้ Meissonic ยังสามารถสร้างภาพที่มีพื้นหลังสีทึบได้อย่างง่ายดาย ซึ่งในโมเดลการแพร่กระจายมักต้องมีการปรับแต่งโมเดลอย่างละเอียดหรือการปรับการชดเชยสัญญาณรบกวน
เพื่อให้บรรลุการฝึกอบรมที่มีประสิทธิภาพ กระบวนการฝึกอบรมของ Meissonic แบ่งออกเป็นสี่ขั้นตอนที่ออกแบบอย่างระมัดระวัง:
ขั้นแรก: ทำความเข้าใจแนวคิดพื้นฐานจากข้อมูลขนาดใหญ่ Meissonic ใช้ชุดข้อมูล LAION-2B ที่กรองแล้วเพื่อฝึกที่ความละเอียด 256×256 เพื่อเรียนรู้แนวคิดพื้นฐาน
ขั้นตอนที่ 2: จัดแนวข้อความและรูปภาพโดยใช้คำแนะนำแบบยาว ความละเอียดในการฝึกอบรมเพิ่มขึ้นเป็น 512×512 และใช้คู่ข้อความรูปภาพสังเคราะห์คุณภาพสูงและชุดข้อมูลภายในเพื่อปรับปรุงความสามารถของโมเดลในการทำความเข้าใจตัวชี้นำที่สื่อความหมายยาว
ขั้นตอนที่ 3: การบีบอัดฟีเจอร์หลักเพื่อให้ได้การสร้างความละเอียดสูงขึ้น ด้วยการแนะนำเลเยอร์การบีบอัดฟีเจอร์ Meissonic สามารถเปลี่ยนจากรุ่น 512×512 เป็น 1024×1024 ได้อย่างราบรื่น และฝึกฝนด้วยคู่ข้อความรูปภาพความละเอียดสูงคุณภาพสูงที่คัดสรรมา
ขั้นตอนที่ 4: การเพิ่มประสิทธิภาพการสร้างภาพที่สวยงามที่มีความละเอียดสูง ในขั้นตอนนี้ โมเดลจะได้รับการปรับแต่งอย่างละเอียดโดยใช้อัตราการเรียนรู้ที่น้อยลง และเพิ่มคะแนนความชอบของมนุษย์เป็นเงื่อนไขย่อยเพื่อเพิ่มประสิทธิภาพการทำงานของโมเดลในการสร้างภาพคุณภาพสูง
Meissonic แสดงให้เห็นถึงประสิทธิภาพและประสิทธิภาพที่เหนือกว่าในตัวชี้วัดเชิงปริมาณและคุณภาพที่หลากหลาย รวมถึง HPS, MPS, เกณฑ์มาตรฐาน GenEval และการประเมิน GPT4o เมื่อเปรียบเทียบกับ DALL-E2 และ SDXL แล้ว Meissonic ประสบความสำเร็จในด้านประสิทธิภาพการแข่งขันทั้งในด้านประสิทธิภาพของมนุษย์และการจัดตำแหน่งข้อความ ขณะเดียวกันก็แสดงให้เห็นถึงประสิทธิภาพสูงอีกด้วย
นอกจากนี้ Meissonic ยังมีความเป็นเลิศในการแก้ไขภาพต่อภาพแบบไม่มีตัวอย่าง ในชุดข้อมูล EMU-Edit นั้น Meissonic บรรลุผลลัพธ์ชั้นนำในการดำเนินการที่แตกต่างกัน 7 รายการ รวมถึงการเปลี่ยนแปลงพื้นหลัง การเปลี่ยนแปลงเนื้อหารูปภาพ การเปลี่ยนแปลงสไตล์ การลบวัตถุ การเพิ่มวัตถุ การปรับเปลี่ยนเฉพาะที่ และการเปลี่ยนแปลงสี/พื้นผิว ซึ่งทั้งหมดนี้ไม่จำเป็นต้องมีการฝึกอบรมหรือละเอียดใดๆ -ปรับแต่งข้อมูลเฉพาะการแก้ไขภาพหรือชุดคำสั่ง
ที่อยู่โครงการ: https://github.com/viiika/Meissonic
ที่อยู่กระดาษ: https://arxiv.org/pdf/2410.08261
ด้วยประสิทธิภาพและประสิทธิภาพสูง Meissonic นำเสนอความเป็นไปได้ใหม่ๆ ในด้านการสร้างภาพ การออกแบบให้มีน้ำหนักเบาช่วยให้ผู้ใช้จำนวนมากใช้งานได้ง่ายขึ้น และยังให้แนวคิดใหม่ๆ สำหรับแนวทางการวิจัยในอนาคตอีกด้วย เพื่อนๆ ที่สนใจสามารถเข้าไปเยี่ยมชมที่อยู่โครงการและที่อยู่วิทยานิพนธ์เพื่อดูข้อมูลเพิ่มเติมได้