โมเดลกำเนิดหลายรูปแบบกำลังกลายเป็นจุดสนใจในด้านปัญญาประดิษฐ์ โดยมีเป้าหมายในการหลอมรวมข้อมูลภาพและข้อความเพื่อสร้างระบบมัลติทาสก์ที่ทรงพลัง อย่างไรก็ตาม ความคืบหน้าของแบบจำลองการถดถอยอัตโนมัติ (AR) ในด้านการสร้างภาพยังล่าช้ากว่าแบบจำลองการแพร่กระจาย บทความนี้จะแนะนำ Lumina-mGPT ซึ่งเป็นโมเดล AR ขั้นสูงที่พัฒนาโดยนักวิจัยจาก Shanghai AI Laboratory และ Chinese University of Hong Kong โดยมีเป้าหมายเพื่อเอาชนะข้อจำกัดของโมเดล AR ที่มีอยู่ในแง่ของคุณภาพของภาพ ความยืดหยุ่นของความละเอียด และความหลากหลาย การมอบหมายงาน ความก้าวหน้าในพลังการประมวลผล
โมเดลกำเนิดหลายรูปแบบกำลังเป็นผู้นำเทรนด์ล่าสุดในด้านปัญญาประดิษฐ์ โดยมุ่งเน้นไปที่การหลอมรวมข้อมูลภาพและข้อความเพื่อสร้างระบบที่สามารถทำงานได้หลากหลาย งานเหล่านี้มีตั้งแต่การสร้างภาพที่มีรายละเอียดสูงตามคำอธิบายข้อความ ไปจนถึงการทำความเข้าใจและการให้เหตุผลในประเภทข้อมูล การก่อให้เกิดระบบ AI ที่ชาญฉลาดและโต้ตอบได้มากขึ้น ซึ่งผสานรวมการมองเห็นและภาษาได้อย่างราบรื่น
ในพื้นที่นี้ ความท้าทายสำคัญคือการพัฒนาแบบจำลองการถดถอยอัตโนมัติ (AR) ที่สามารถสร้างภาพที่สมจริงตามคำอธิบายที่เป็นข้อความ แม้ว่าแบบจำลองการแพร่กระจายจะมีความก้าวหน้าอย่างมากในสาขานี้ แต่ประสิทธิภาพของแบบจำลองการถดถอยอัตโนมัติก็ยังล้าหลัง โดยเฉพาะอย่างยิ่งในแง่ของคุณภาพของภาพ ความยืดหยุ่นของความละเอียด และความสามารถในการจัดการงานด้านภาพที่หลากหลาย ช่องว่างนี้กระตุ้นให้นักวิจัยมองหาวิธีการใหม่ๆ เพื่อปรับปรุงความสามารถของโมเดล AR
ปัจจุบัน สาขาการสร้างข้อความเป็นรูปภาพส่วนใหญ่ถูกครอบครองโดยโมเดลการแพร่กระจาย ซึ่งเก่งในการสร้างภาพคุณภาพสูงและดึงดูดสายตา อย่างไรก็ตาม โมเดล AR เช่น LlamaGen และ Parti ยังขาดคุณสมบัตินี้ พวกเขามักจะอาศัยสถาปัตยกรรมการเข้ารหัส-ถอดรหัสที่ซับซ้อน และมักจะสร้างได้เฉพาะภาพที่มีความละเอียดคงที่เท่านั้น ข้อจำกัดนี้ลดความยืดหยุ่นและประสิทธิผลในการสร้างเอาต์พุตที่หลากหลายและมีความละเอียดสูงลงอย่างมาก
เพื่อทำลายคอขวดนี้ นักวิจัยจาก Shanghai AI Laboratory และ Chinese University of Hong Kong ได้เปิดตัว Lumina-mGPT ซึ่งเป็นโมเดล AR ขั้นสูงที่ออกแบบมาเพื่อเอาชนะข้อจำกัดเหล่านี้ Lumina-mGPT ใช้สถาปัตยกรรมหม้อแปลงเฉพาะตัวถอดรหัสเท่านั้น และใช้วิธีการฝึกอบรมล่วงหน้าแบบกำเนิดหลายรูปแบบ (mGPT) โมเดลนี้รวมงานด้านการมองเห็นและภาษาไว้ในกรอบงานที่เป็นหนึ่งเดียว โดยมีเป้าหมายเพื่อสร้างภาพที่สมจริงในระดับเดียวกับโมเดลการแพร่กระจาย ในขณะที่ยังคงรักษาความเรียบง่ายและความสามารถในการปรับขนาดของวิธี AR
Lumina-mGPT ใช้แนวทางที่ละเอียดถี่ถ้วนในการเพิ่มขีดความสามารถในการสร้างภาพ โดยมีกลยุทธ์การปรับแต่งอย่างละเอียดแบบก้าวหน้าภายใต้การดูแลแบบยืดหยุ่น (FP-SFT) เป็นแกนหลัก กลยุทธ์นี้จะฝึกโมเดลอย่างต่อเนื่องเพื่อสร้างภาพที่มีความละเอียดสูงจากความละเอียดต่ำ ขั้นแรกให้เรียนรู้แนวคิดเกี่ยวกับภาพทั่วไปที่ความละเอียดต่ำ จากนั้นค่อย ๆ แนะนำรายละเอียดความละเอียดสูงที่ซับซ้อนมากขึ้น นอกจากนี้ โมเดลยังแนะนำระบบการแสดงภาพที่เป็นนวัตกรรมใหม่ที่ชัดเจน ซึ่งขจัดความคลุมเครือที่เกี่ยวข้องกับความละเอียดของภาพที่เปลี่ยนแปลงได้และอัตราส่วนภาพ โดยการแนะนำตัวบ่งชี้ความสูงและความกว้างเฉพาะ และเครื่องหมายที่ปลายบรรทัด
ในแง่ของประสิทธิภาพ Lumina-mGPT เหนือกว่ารุ่น AR รุ่นก่อนๆ อย่างมากในการสร้างภาพที่สมจริง สามารถสร้างภาพที่มีความละเอียดสูงขนาด 1024×1024 พิกเซล ซึ่งมีรายละเอียดครบถ้วน และสอดคล้องกับข้อความแจ้งที่ให้ไว้อย่างมาก นักวิจัยรายงานว่า Lumina-mGPT ต้องการคู่ข้อความรูปภาพเพียง 10 ล้านคู่สำหรับการฝึกอบรม ซึ่งน้อยกว่าคู่ข้อความรูปภาพ 5 ล้านคู่ที่ LlamaGen กำหนดไว้มาก แม้จะมีชุดข้อมูลขนาดเล็ก แต่ Lumina-mGPT ก็เหนือกว่าคู่แข่งในด้านคุณภาพของภาพและความสม่ำเสมอของภาพ นอกจากนี้ โมเดลยังรองรับงานที่หลากหลาย เช่น การตอบคำถามด้วยภาพ คำอธิบายประกอบที่หนาแน่น และการสร้างภาพที่ควบคุมได้ ซึ่งแสดงให้เห็นถึงความยืดหยุ่นในฐานะผู้เข้าใจทั่วไปหลายรูปแบบ
สถาปัตยกรรมที่ยืดหยุ่นและปรับขนาดได้ช่วยเพิ่มความสามารถของ Lumina-mGPT ในการสร้างภาพที่หลากหลายและมีคุณภาพสูง โมเดลนี้ใช้เทคนิคการถอดรหัสขั้นสูง เช่น คำแนะนำแบบไม่มีตัวแยกประเภท (CFG) ซึ่งมีบทบาทสำคัญในการปรับปรุงคุณภาพของภาพที่สร้างขึ้น ตัวอย่างเช่น โดยการปรับพารามิเตอร์ เช่น อุณหภูมิและค่า top-k ทำให้ Lumina-mGPT สามารถควบคุมรายละเอียดและความหลากหลายของภาพที่สร้างขึ้น ช่วยลดการมองเห็นที่ผิดเพี้ยนและปรับปรุงความสวยงามโดยรวม
Lumina-mGPT ถือเป็นความก้าวหน้าครั้งสำคัญในด้านการสร้างภาพแบบถดถอยอัตโนมัติ โมเดลนี้พัฒนาโดยนักวิจัยจาก Shanghai AI Laboratory และ Chinese University of Hong Kong ประสบความสำเร็จในการเชื่อมโยงโมเดล AR และโมเดลการแพร่กระจาย นับเป็นเครื่องมือใหม่อันทรงพลังสำหรับการสร้างภาพที่สมจริงจากข้อความ วิธีการที่เป็นนวัตกรรมในการฝึกอบรมล่วงหน้าหลายรูปแบบและการปรับแต่งอย่างละเอียดที่ยืดหยุ่น แสดงให้เห็นถึงความสามารถในการเปลี่ยนแปลงที่เป็นไปได้ของโมเดล AR และถือเป็นการประกาศการกำเนิดของระบบ AI ที่ซับซ้อนและหลากหลายมากขึ้นในอนาคต
ที่อยู่โครงการ: https://top.aibase.com/tool/lumina-mgpt
ที่อยู่ทดลองออนไลน์: https://106.14.2.150:10020/
โดยรวมแล้ว การเกิดขึ้นของ Lumina-mGPT ได้นำความเป็นไปได้ใหม่ๆ มาสู่ขอบเขตการสร้างภาพแบบถดถอยอัตโนมัติ และวิธีการฝึกฝนที่มีประสิทธิภาพและเอฟเฟกต์การสร้างที่ยอดเยี่ยมก็สมควรได้รับความสนใจ ในอนาคต เราสามารถตั้งตารอการใช้งานที่เป็นนวัตกรรมมากขึ้นโดยอาศัยเทคโนโลยีที่คล้ายคลึงกัน เพื่อส่งเสริมการพัฒนาอย่างต่อเนื่องในด้านปัญญาประดิษฐ์