ในช่วงไม่กี่ปีที่ผ่านมา เทคโนโลยีการสร้างภาพ AI ได้ก้าวหน้าไปอย่างรวดเร็ว แต่ต้นทุนการประมวลผลที่สูงได้จำกัดความนิยม บทความนี้จะแนะนำเฟรมเวิร์กการแปลงข้อความเป็นรูปภาพใหม่ที่เรียกว่า Sana ซึ่งโดดเด่นด้วยความสามารถในการสร้างรูปภาพที่มีประสิทธิภาพและต้นทุนการดำเนินการที่ต่ำ Sana สามารถสร้างภาพที่มีความละเอียดสูงเป็นพิเศษที่ความละเอียดสูงสุด 4096×4096 บน GPU แล็ปท็อปทั่วไป ซึ่งเร็วกว่าเทคโนโลยีที่มีอยู่มาก นวัตกรรมหลักของเฟรมเวิร์กนี้อยู่ที่การผสมผสานระหว่างตัวเข้ารหัสอัตโนมัติแบบบีบอัดเชิงลึก, DiT เชิงเส้น, ตัวเข้ารหัสข้อความแบบตัวถอดรหัส และกลยุทธ์การฝึกอบรมและการสุ่มตัวอย่างที่มีประสิทธิภาพ
เทคโนโลยีการสร้างภาพ AI กำลังพัฒนาอย่างรวดเร็ว แต่ขนาดของโมเดลก็ใหญ่ขึ้นเรื่อยๆ และค่าใช้จ่ายในการฝึกอบรมและการใช้งานก็สูงมากสำหรับผู้ใช้ทั่วไป ขณะนี้ กรอบข้อความเป็นรูปภาพใหม่ที่เรียกว่า "Sana" ได้เกิดขึ้นแล้ว โดยสามารถสร้างภาพที่มีความละเอียดสูงเป็นพิเศษด้วยความละเอียดสูงสุด 4096×4096 ได้อย่างมีประสิทธิภาพ และเร็วมากจนสามารถทำงานบน GPU ของ แล็ปท็อป.
การออกแบบหลักของ Sana ได้แก่ :
ตัวเข้ารหัสอัตโนมัติแบบบีบอัดลึก: แตกต่างจากตัวเข้ารหัสอัตโนมัติแบบดั้งเดิมที่บีบอัดรูปภาพเพียง 8 ครั้ง ตัวเข้ารหัสอัตโนมัติที่ Sana ใช้สามารถบีบอัดรูปภาพได้ 32 ครั้ง ซึ่งช่วยลดจำนวนโทเค็นที่อาจเกิดขึ้นได้อย่างมีประสิทธิภาพ นี่เป็นสิ่งสำคัญสำหรับการฝึกอบรมที่มีประสิทธิภาพและการสร้างภาพที่มีความละเอียดสูงพิเศษ
Linear DiT:Sana แทนที่กลไกความสนใจแบบดั้งเดิมทั้งหมดใน DiT ด้วยความสนใจเชิงเส้น ซึ่งช่วยปรับปรุงประสิทธิภาพการประมวลผลของภาพที่มีความละเอียดสูงโดยไม่ทำให้คุณภาพลดลง ความสนใจเชิงเส้นช่วยลดความซับซ้อนในการคำนวณจาก O(N²) ถึง O(N) นอกจากนี้ Sana ยังใช้ Mix-FFN เพื่อรวมการบิดความลึก 3x3 เข้ากับ MLP เพื่อรวบรวมข้อมูลโทเค็นในท้องถิ่น และไม่จำเป็นต้องเข้ารหัสตำแหน่งอีกต่อไป
ตัวเข้ารหัสข้อความสไตล์ตัวถอดรหัส: Sana ใช้ LLM ขนาดเล็กสไตล์ตัวถอดรหัสล่าสุด (เช่น Gemma) เป็นตัวเข้ารหัสข้อความ แทนที่ CLIP หรือ T5 ที่ใช้กันทั่วไป แนวทางนี้ช่วยเพิ่มความสามารถของโมเดลในการทำความเข้าใจและให้เหตุผลเกี่ยวกับสัญญาณของผู้ใช้ และปรับปรุงการจัดแนวข้อความรูปภาพผ่านคำสั่งของมนุษย์ที่ซับซ้อนและการเรียนรู้ตามบริบท
การฝึกอบรมและกลยุทธ์การสุ่มตัวอย่างที่มีประสิทธิภาพ: Sana ใช้ Flow-DPM-Solver เพื่อลดขั้นตอนการสุ่มตัวอย่าง และใช้คำอธิบายประกอบชื่อและวิธีการเลือกที่มีประสิทธิภาพเพื่อเร่งการหลอมรวมโมเดล รุ่น Sana-0.6B มีขนาดเล็กกว่า 20 เท่าและเร็วกว่ารุ่นแพร่กระจายขนาดใหญ่เช่น Flux-12B มากกว่า 100 เท่า
Sana มีนวัตกรรมที่ช่วยลดเวลาแฝงในการอนุมานได้อย่างมากโดย:
การเพิ่มประสิทธิภาพร่วมกันของอัลกอริธึมและระบบ: ด้วยวิธีการเพิ่มประสิทธิภาพหลายวิธี Sana ลดเวลาการสร้างภาพขนาด 4096x4096 จาก 469 วินาทีเหลือ 9.6 วินาที ซึ่งเร็วกว่า Flux รุ่นที่ทันสมัยที่สุดในปัจจุบันถึง 106 เท่า
โปรแกรมเข้ารหัสอัตโนมัติแบบบีบอัดเชิงลึก: Sana ใช้โครงสร้าง AE-F32C32P1 เพื่อบีบอัดรูปภาพ 32 ครั้ง ซึ่งช่วยลดจำนวนโทเค็นลงอย่างมาก และเร่งการฝึกและการอนุมาน
ความสนใจเชิงเส้น: การใช้ความสนใจเชิงเส้นเพื่อแทนที่กลไกความสนใจตนเองแบบเดิม ช่วยเพิ่มประสิทธิภาพการประมวลผลของภาพที่มีความละเอียดสูง
การเร่งความเร็วของไทรทัน: ใช้ไทรทันเพื่อหลอมรวมแกนของกระบวนการไปข้างหน้าและข้างหลังของโมดูลความสนใจเชิงเส้น เพื่อเร่งการฝึกและการอนุมานเพิ่มเติม
Flow-DPM-Solver: ลดขั้นตอนการสุ่มตัวอย่างการอนุมานจาก 28-50 ขั้นตอนเหลือ 14-20 ขั้นตอน ในขณะที่ได้ผลลัพธ์การสร้างที่ดีขึ้น
ซานะแสดงได้โดดเด่นมาก ที่ความละเอียด 1024x1024 พารามิเตอร์ของรุ่น Sana-0.6B มีเพียง 590 ล้าน แต่ประสิทธิภาพโดยรวมสูงถึง 0.64GenEval ซึ่งเทียบได้กับรุ่นใหญ่ๆ หลายรุ่น นอกจากนี้ Sana-0.6B ยังสามารถติดตั้งบนแล็ปท็อป GPU ขนาด 16GB และสร้างภาพความละเอียด 1024×1024 ได้ในเวลาน้อยกว่า 1 วินาที สำหรับการสร้างภาพ 4K นั้น Sana-0.6B สามารถบรรลุปริมาณงานได้เร็วกว่าวิธีการอันล้ำสมัย (FLUX) ถึง 100 เท่า Sana ไม่เพียงแต่ประสบความสำเร็จในด้านความเร็วเท่านั้น แต่ยังมีความสามารถในการแข่งขันในด้านคุณภาพของภาพอีกด้วย แม้แต่ในฉากที่ซับซ้อน เช่น การแสดงข้อความและรายละเอียดของวัตถุ ประสิทธิภาพของ Sana ก็ยังน่าพึงพอใจ
นอกจากนี้ Sana ยังมีความสามารถในการย้ายภาษาแบบไม่มีตัวอย่างที่มีประสิทธิภาพอีกด้วย แม้จะฝึกโดยใช้ข้อมูลภาษาอังกฤษเท่านั้น Sana ก็สามารถเข้าใจภาษาจีนและอีโมจิ และสร้างรูปภาพที่เกี่ยวข้องได้
การเกิดขึ้นของ Sana ทำให้เกณฑ์ในการสร้างภาพคุณภาพสูงลดลง และมอบเครื่องมือสร้างเนื้อหาที่มีประสิทธิภาพสำหรับมืออาชีพและผู้ใช้ทั่วไป รหัสและโมเดลของซานะจะถูกเปิดเผยต่อสาธารณะ
ที่อยู่ประสบการณ์: https://nv-sana.mit.edu/
ที่อยู่กระดาษ: https://arxiv.org/pdf/2410.10629
Github:https://github.com/NVlabs/Sana
โดยรวมแล้ว Sana ประสบความสำเร็จอย่างก้าวกระโดดในด้านการสร้างภาพด้วยอัลกอริธึมที่มีประสิทธิภาพและการออกแบบระบบที่ได้รับการปรับปรุงให้เหมาะสม มอบความสะดวกสบายอย่างที่ไม่เคยมีมาก่อนและประสบการณ์การสร้างภาพคุณภาพสูงให้กับผู้ใช้ คุณสมบัติโอเพ่นซอร์สยังมีส่วนสำคัญต่อการพัฒนาเทคโนโลยีการสร้างภาพ AI