การสร้างภาพที่มีความละเอียดสูงและเหมือนจริงจากข้อความเป็นภาพเป็นปัญหาที่ยากในด้านการมองเห็นของคอมพิวเตอร์มาโดยตลอด แม้ว่าวิธีการสร้างแบบดั้งเดิม เช่น โมเดลการแพร่กระจายและโมเดลการแปลงอัตโนมัติจะสามารถสร้างภาพคุณภาพสูงได้ แต่ก็ประสบปัญหาต่างๆ เช่น การใช้ทรัพยากรคอมพิวเตอร์มหาศาล และการสูญเสียรายละเอียด เฟรมเวิร์กใหม่ "Infinity" ที่เสนอโดย ByteDance มีเป้าหมายเพื่อแก้ปัญหาความท้าทายเหล่านี้ ปรับปรุงประสิทธิภาพการสร้างและคุณภาพของภาพอย่างมีนัยสำคัญผ่านการแท็กระดับบิตที่เป็นนวัตกรรมและตัวแยกประเภทคำศัพท์ที่ไม่มีที่สิ้นสุด
ในด้านการสร้างภาพ งานด้านภาพที่มีความละเอียดสูงและสมจริงนั้นต้องเผชิญกับความท้าทายหลายประการมาโดยตลอด โดยเฉพาะอย่างยิ่งในกระบวนการสังเคราะห์ข้อความเป็นภาพ วิธีการกำเนิดแบบดั้งเดิมส่วนใหญ่อาศัยแบบจำลองการแพร่กระจายและกรอบงานการแปลงอัตโนมัติแบบถดถอย (VAR)
แม้ว่าโมเดลเหล่านี้จะสามารถสร้างภาพคุณภาพสูงได้ แต่ก็ใช้ทรัพยากรการประมวลผลจำนวนมาก ทำให้ไม่ยืดหยุ่นสำหรับแอปพลิเคชันแบบเรียลไทม์ ในเวลาเดียวกัน โมเดล VAR มีแนวโน้มที่จะเกิดข้อผิดพลาดสะสมเมื่อประมวลผลมาร์กเกอร์แบบแยก ส่งผลให้สูญเสียรายละเอียดในภาพที่สร้างขึ้น ซึ่งส่งผลต่อความสมจริงของภาพ
เพื่อเอาชนะข้อบกพร่องเหล่านี้ ทีมวิจัยของ ByteDance ได้เปิดตัวเฟรมเวิร์กใหม่ที่เรียกว่า "Infinity" ซึ่งได้รับการออกแบบมาเพื่อปรับปรุงประสิทธิภาพและคุณภาพของการสังเคราะห์ข้อความเป็นรูปภาพ
Infinity นำเสนอภาพที่ละเอียดยิ่งขึ้นด้วยการนำแท็กระดับบิตมาใช้แทนแท็กระดับดัชนีแบบเดิม ซึ่งช่วยลดข้อผิดพลาดในเชิงปริมาณได้อย่างมาก และปรับปรุงความสมจริงของรูปภาพที่สร้างขึ้น นอกจากนี้ เฟรมเวิร์กยังใช้ Infinite Vocabulary Classifier (IVC) เพื่อขยายคำศัพท์โทเค็นเป็น 2^64 ซึ่งช่วยลดข้อกำหนดด้านหน่วยความจำและการประมวลผลลงอย่างมาก
สถาปัตยกรรมอินฟินิตี้ส่วนใหญ่ประกอบด้วยสามส่วน: แท็กเกอร์เชิงปริมาณหลายระดับบิตที่แปลงคุณลักษณะของรูปภาพให้เป็นแท็กไบนารีสำหรับค่าใช้จ่ายในการคำนวณ; กลไกการแก้ไขตัวเองที่แนะนำการพลิกบิตแบบสุ่มในระหว่างกระบวนการฝึกอบรมเพื่อปรับปรุงความทนทานของแบบจำลองต่อข้อผิดพลาด ทีมวิจัยใช้ชุดข้อมูลขนาดใหญ่ เช่น LAION และ OpenImages ในการฝึกอบรม และสร้างความก้าวหน้าที่สำคัญโดยค่อยๆ เพิ่มความละเอียดของภาพจาก 256×256 เป็น 1024×102
หลังการประเมิน Infinity แสดงให้เห็นประสิทธิภาพที่ยอดเยี่ยมในตัวบ่งชี้หลัก โดยมีคะแนน GenEval อยู่ที่ 0 และ Fréchet Inception Distance (FID) ลดลงเหลือ 3.48 ซึ่งแสดงให้เห็นถึงการปรับปรุงความเร็วและคุณภาพในการสร้าง Infinity สามารถสร้างภาพความละเอียดสูง 1024×1024 ได้ใน 0.8 วินาที ซึ่งแสดงให้เห็นถึงประสิทธิภาพและความน่าเชื่อถือ รูปภาพที่สร้างโดยระบบไม่เพียงแต่ดูสมจริงและมีรายละเอียดครบถ้วนเท่านั้น แต่ยังตอบสนองต่อคำสั่งข้อความที่ซับซ้อนได้อย่างแม่นยำ ส่งผลให้ได้รับคะแนนความพึงพอใจของมนุษย์ในระดับสูง
การเปิดตัว Infinity ถือเป็นเกณฑ์มาตรฐานใหม่ในการสังเคราะห์ข้อความเป็นรูปภาพที่มีความละเอียดสูง ซึ่งขับเคลื่อนการพัฒนาต่อไปของ generative AI โดยการแก้ปัญหาความสามารถในการปรับขนาดและคุณภาพรายละเอียดที่มีมายาวนานด้วยการออกแบบที่เป็นนวัตกรรม
บทความ: https://arxiv.org/abs/2412.04431
ไฮไลท์:
? **Innovative Framework Infinity:** กรอบงาน Infinity ที่ Bytedance เปิดตัวช่วยเพิ่มประสิทธิภาพในการสร้างภาพความละเอียดสูงอย่างมากผ่านโทเค็นระดับบิตและตัวแยกประเภทคำศัพท์แบบไม่จำกัด
⚡ **ประสิทธิภาพที่ยอดเยี่ยม:** Infinity เหนือกว่ารุ่นที่มีอยู่ในตัวบ่งชี้การประเมินหลัก และสามารถสร้างภาพคุณภาพสูง 1024×1024 ได้ใน 0.8 วินาที
️ ** รายละเอียดและการตอบสนองที่แท้จริง: ** รูปภาพที่สร้างขึ้นไม่เพียงแต่ดูสมจริง แต่ยังตอบสนองต่อข้อความแจ้งที่ซับซ้อนได้อย่างแม่นยำ ซึ่งแสดงคะแนนความพึงพอใจของมนุษย์ในระดับสูง
โดยรวมแล้ว กรอบงาน Infinity มอบโซลูชันที่มีประสิทธิภาพและมีคุณภาพสูงสำหรับการสร้างข้อความเป็นรูปภาพที่มีความละเอียดสูง บรรลุความก้าวหน้าครั้งสำคัญในด้านความเร็ว คุณภาพของภาพ และการตอบสนองต่อคำสั่งข้อความที่ซับซ้อน มอบแพลตฟอร์มที่มีประสิทธิภาพสำหรับการพัฒนาเชิงสร้างสรรค์ ของ AI ได้กำหนดหลักชัยใหม่