บรรณาธิการของ Downcodes ได้เรียนรู้ว่า Google DeepMind และสถาบันเทคโนโลยีแมสซาชูเซตส์ (MIT) ประสบความสำเร็จในการพัฒนาครั้งสำคัญในด้านการสร้างข้อความเป็นรูปภาพ โมเดลการถดถอยอัตโนมัติแบบใหม่ Fluid ที่พวกเขาพัฒนาขึ้นแสดงให้เห็นประสิทธิภาพที่ยอดเยี่ยมในระดับพารามิเตอร์ 10.5 พันล้าน ซึ่งล้มล้างความเข้าใจของอุตสาหกรรมเกี่ยวกับแบบจำลองการถดถอยอัตโนมัติในด้านการสร้างภาพ แกนหลักของการวิจัยนี้อยู่ที่การแนะนำนวัตกรรมองค์ประกอบคำต่อเนื่องและลำดับการสร้างแบบสุ่ม ซึ่งปรับปรุงประสิทธิภาพและความสามารถในการปรับขนาดของแบบจำลองได้อย่างมาก และนำทิศทางใหม่มาสู่เทคโนโลยีการสร้างภาพ
Google DeepMind และสถาบันเทคโนโลยีแมสซาชูเซตส์ (MIT) เพิ่งเปิดเผยผลการวิจัยที่สำคัญ โมเดล autoregressive Fluid ใหม่ที่พัฒนาโดยทีมวิจัยได้สร้างความก้าวหน้าครั้งสำคัญในด้านการสร้างข้อความเป็นรูปภาพ แบบจำลองนี้มีประสิทธิภาพที่ยอดเยี่ยมหลังจากขยายเป็นระดับพารามิเตอร์ 10.5 พันล้าน
งานวิจัยนี้ล้มล้างการรับรู้ทั่วไปในอุตสาหกรรม ก่อนหน้านี้ แม้ว่าแบบจำลองการถดถอยอัตโนมัติจะครอบงำด้านการประมวลผลภาษา แต่ก็ถือว่าด้อยกว่าแบบจำลองการแพร่กระจาย เช่น Stable Diffusion และ Google Imagen3 ในการสร้างภาพ นักวิจัยได้ปรับปรุงประสิทธิภาพและความสามารถในการปรับขนาดของแบบจำลองการถดถอยอัตโนมัติอย่างมีนัยสำคัญโดยแนะนำปัจจัยการออกแบบหลัก 2 ประการอย่างสร้างสรรค์ ได้แก่ การใช้องค์ประกอบของคำที่ต่อเนื่องแทนองค์ประกอบของคำที่แยกจากกัน และการแนะนำลำดับที่สร้างขึ้นแบบสุ่มแทนลำดับคงที่
ในแง่ของการประมวลผลข้อมูลภาพ องค์ประกอบคำต่อเนื่องมีข้อดีที่ชัดเจน โทเค็นแบบแยกแบบดั้งเดิมจะเข้ารหัสขอบเขตของภาพเป็นโค้ดด้วยคำศัพท์ที่จำกัด วิธีการนี้ย่อมนำไปสู่การสูญเสียข้อมูล และเป็นเรื่องยากสำหรับโมเดลขนาดใหญ่ที่จะสร้างคุณสมบัติที่มีรายละเอียด เช่น ดวงตาที่สมมาตร องค์ประกอบคำที่ต่อเนื่องสามารถบันทึกข้อมูลที่แม่นยำยิ่งขึ้นและปรับปรุงคุณภาพของการสร้างภาพใหม่ได้อย่างมาก
ทีมวิจัยยังได้คิดค้นลำดับการสร้างภาพอีกด้วย โมเดล autoregressive แบบดั้งเดิมมักจะสร้างรูปภาพในลำดับคงที่จากซ้ายไปขวาและบนลงล่าง นักวิจัยได้ลองใช้วิธีการสุ่มตามลำดับ ซึ่งช่วยให้โมเดลสามารถคาดเดาพิกเซลหลายจุดในตำแหน่งใดก็ได้ในแต่ละขั้นตอน วิธีการนี้ทำงานได้ดีในงานที่ต้องใช้ความเข้าใจโครงสร้างภาพโดยรวมเป็นอย่างดี และบรรลุข้อได้เปรียบที่สำคัญในการทดสอบเกณฑ์มาตรฐาน GenEval ซึ่งวัดการจับคู่ข้อความและรูปภาพที่สร้างขึ้น
ประสิทธิภาพที่แท้จริงของแบบจำลอง Fluid เป็นเครื่องยืนยันคุณค่าของการวิจัย หลังจากปรับขนาดพารามิเตอร์เป็น 10.5 พันล้านพารามิเตอร์ Fluid ก็มีประสิทธิภาพเหนือกว่ารุ่นที่มีอยู่ในการวัดประสิทธิภาพที่สำคัญหลายรายการ เป็นที่น่าสังเกตว่าแบบจำลอง Fluid ขนาดเล็กที่มีพารามิเตอร์เพียง 369 ล้านพารามิเตอร์ได้คะแนน FID (7.23) ของแบบจำลอง Parti ซึ่งมีพารามิเตอร์ 20 พันล้านชุดในชุดข้อมูล MS-COCO
ผลการวิจัยนี้แสดงให้เห็นว่าแบบจำลองการถดถอยอัตโนมัติเช่นของไหลมีแนวโน้มที่จะกลายเป็นทางเลือกที่มีประสิทธิภาพแทนแบบจำลองการแพร่กระจาย เมื่อเปรียบเทียบกับโมเดลการแพร่กระจายที่ต้องมีการส่งต่อและย้อนกลับหลายครั้ง Fluid ต้องการเพียงการส่งผ่านเพียงครั้งเดียวเพื่อสร้างภาพ ข้อได้เปรียบด้านประสิทธิภาพนี้จะชัดเจนยิ่งขึ้นเมื่อโมเดลถูกขยายเพิ่มเติม
งานวิจัยนี้นำเสนอความเป็นไปได้ใหม่ๆ ในด้านการสร้างข้อความเป็นรูปภาพ และการเกิดขึ้นของแบบจำลอง Fluid ยังเป็นเครื่องหมายของการเพิ่มขึ้นของแบบจำลอง autoregressive ในด้านการสร้างภาพอีกด้วย ในอนาคต เราหวังว่าจะมีแอปพลิเคชันและการปรับปรุงเพิ่มเติมตามโมเดล Fluid เพื่อส่งเสริมความก้าวหน้าของเทคโนโลยีการสร้างภาพปัญญาประดิษฐ์ บรรณาธิการของ Downcodes จะยังคงให้ความสนใจกับการพัฒนาล่าสุดในสาขานี้และนำเนื้อหาที่น่าตื่นเต้นมาสู่ผู้อ่าน