หน้าตาสุดช็อก! Sana รุ่นสร้างภาพโอเพ่นซอร์สของ NVIDIA สร้างภาพใน 1 วินาที รองรับภาษาจีน อังกฤษ และอิโมจิ - บทความ AI

ผู้เขียน：Eve Cole เวลาอัปเดต：2025-01-27 21:16:01

Sana ซึ่งเป็นโมเดลการสร้างภาพโอเพ่นซอร์สล่าสุดของ NVIDIA ได้สร้างกระแสในด้านการสร้างภาพ AI ด้วยขนาดที่กะทัดรัดและประสิทธิภาพอันทรงพลัง Sana มีพารามิเตอร์เพียง 60 ล้านพารามิเตอร์ แต่สามารถสร้างภาพที่มีความละเอียดสูงได้ถึง 4096×4096 พิกเซล และบรรลุความเร็วการสร้างรองวินาทีบนการ์ดกราฟิก 16GB นี่เป็นเพราะนวัตกรรมการเข้ารหัสอัตโนมัติแบบบีบอัดเชิงลึกและหม้อแปลงกระจายเชิงเส้น ตลอดจนการปรับกลยุทธ์การเข้ารหัสข้อความและการอนุมานให้เหมาะสม ประสิทธิภาพของมันโดดเด่นในรุ่นที่คล้ายกัน แม้จะเปรียบเทียบกับรุ่นที่มีพารามิเตอร์ใหญ่กว่าก็ตาม

ล่าสุด NVIDIA ได้เปิดซอร์สโมเดลการสร้างอิมเมจที่เรียกว่า Sana โมเดลนี้มีพารามิเตอร์เพียง 60 ล้านพารามิเตอร์ ซึ่งลดเกณฑ์การทำงานลงอย่างมาก

เป็นที่เข้าใจกันว่า Sana สามารถสร้างภาพที่มีความละเอียด 4096×4096 และสามารถทำงานบนการ์ดกราฟิกขนาด 16GB ได้ โดยสามารถสร้างภาพคุณภาพสูงที่มีความละเอียด 1024×1024 ได้ในเวลาน้อยกว่า 1 วินาที

ทีมวิจัยได้แนะนำตัวเข้ารหัสอัตโนมัติแบบบีบอัดลึก (DC-AE) เมื่อเทียบกับตัวเข้ารหัสอัตโนมัติแบบเดิม Sana มีอัตราส่วนการบีบอัดสูงถึง 32 เท่า ซึ่งช่วยลดจำนวนป้ายกำกับที่อาจเกิดขึ้นได้อย่างมาก ซึ่งมีประโยชน์สำหรับการสร้างภาพที่มีความละเอียดสูงเป็นพิเศษ สำคัญ. ประการที่สอง Sana ใช้หม้อแปลงกระจายเชิงเส้น (DiT) เพื่อแทนที่ความสนใจกำลังสองแบบดั้งเดิมด้วยความสนใจเชิงเส้น ซึ่งช่วยลดความซับซ้อนเป็น O (N) และปรับปรุงข้อมูลท้องถิ่นผ่านการบิดเชิงลึก 3 × 3 การออกแบบนี้เพิ่มความหน่วงของ Sana 1.7 เท่าเมื่อสร้างภาพ 4K

ในแง่ของการเข้ารหัสข้อความ Sana เลือก Gemma ซึ่งเป็นโมเดลภาษาขนาดใหญ่เฉพาะตัวถอดรหัสขนาดเล็ก แทนที่จะเป็นโมเดล T5 แบบดั้งเดิม Gemma ทำงานได้ดีขึ้นในการทำความเข้าใจและดำเนินการตามคำสั่งที่ซับซ้อน ช่วยเพิ่มความสามารถในการจัดแนวรูปภาพและข้อความ นอกจากนี้ Sana ยังปรับกลยุทธ์การฝึกอบรมและการอนุมานเพื่อปรับปรุงความสอดคล้องของข้อความและรูปภาพโดยการติดป้ายกำกับและเลือกคำอธิบายที่มีคะแนน CLIP สูงโดยอัตโนมัติ อัลกอริธึม Flow-DPM-Solver ที่นำเสนอใหม่ช่วยลดขั้นตอนการให้เหตุผลเหลือ 14-20 ขั้นตอน ซึ่งช่วยปรับปรุงประสิทธิภาพได้อย่างมาก

ในแง่ของประสิทธิภาพโดยรวม Sana ทำงานได้ดีในรูปแบบการแพร่กระจายข้อความเป็นรูปภาพขั้นสูงหลายรูปแบบ ที่ความละเอียด 512×512 Sana-0.6 มีปริมาณงานมากกว่า PixArt-Σ ถึง 5 เท่า และทำงานได้ดีในแง่ของคุณภาพการสร้างภาพ ที่ความละเอียด 1024×1024 Sana-0.6B ยังมีข้อได้เปรียบที่สำคัญในรุ่นที่มีพารามิเตอร์น้อยกว่า 300 ล้านพารามิเตอร์

Sana-0.6B ไม่เพียงแต่มีประสิทธิภาพที่โดดเด่นเท่านั้น แต่ยังสามารถสร้างภาพบน GPU โน้ตบุ๊กขนาด 16GB ได้อย่างรวดเร็ว ช่วยให้ผู้สร้างเนื้อหาบรรลุเป้าหมายการสร้างสรรค์ได้อย่างมีประสิทธิภาพ ว่ากันว่า Sana0.6B ยังสามารถแข่งขันกับ Flux-12B ในแง่ของประสิทธิภาพได้ด้วยจำนวนพารามิเตอร์เพียง 1/20 แต่ความเร็วเต็มเร็วขึ้น 100 เท่า

สิ่งที่น่าสนใจคือคำแจ้งเตือนของ Sana รองรับภาษาอังกฤษ จีน และอีโมจิ ผู้ใช้สามารถป้อนบทกวีจีนและสร้างภาพศิลปะที่เกี่ยวข้องกับบทกวีเหล่านั้นได้ นอกจากนี้ Sana ยังมีระดับความปลอดภัยอีกด้วย เมื่อผู้ใช้ป้อนคำที่ไม่เหมาะสม ระบบจะแทนที่คำเหล่านั้นด้วยรูปแบบหัวใจสีแดงโดยอัตโนมัติเพื่อหลีกเลี่ยงการสร้างเนื้อหาที่ไม่เหมาะสม

ตัวอย่างเช่น เมื่อ AIbase ป้อนคำว่า "แมวกำลังเล่นอยู่บนพื้นหญ้า ดวงดาว" ความเร็วในการสร้างจะเร็วมากและเอฟเฟกต์ก็ดีมากเช่นกัน

อีกตัวอย่างหนึ่ง เมื่อได้รับข้อความแจ้งว่า "คนน่ารักกำลังกิน สไตล์การวาดภาพด้วยหมึก" คุณจะเห็นว่าโมเดลสามารถระบุอีโมจิได้อย่างแม่นยำ

เป็นที่น่าสังเกตว่า Sana ได้รับการสนับสนุนอย่างเป็นทางการสำหรับ ComfyUI และติดตั้งเครื่องมือการฝึกอบรม Lora ทำให้ผู้ใช้ใช้งานได้สะดวกยิ่งขึ้น และการใช้งานจริงยังได้รับการปรับปรุงอย่างมากอีกด้วย เพื่อนๆ ที่สนใจสามารถลองใช้เองได้

ทางเข้าโครงการ: https://nv-sana.mit.edu/

ไฮไลท์:

** การสร้างที่มีประสิทธิภาพ **: Sana สามารถสร้างภาพคุณภาพสูงได้อย่างรวดเร็วด้วยความละเอียดสูงสุด 4096×4096 เหมาะสำหรับใช้กับ GPU โน้ตบุ๊กทั่วไป

**การออกแบบเชิงนวัตกรรม**: ตัวเข้ารหัสอัตโนมัติแบบบีบอัดลึกและหม้อแปลงกระจายเชิงเส้นช่วยปรับปรุงความเร็วและคุณภาพในการสร้างได้อย่างมาก

**ประสิทธิภาพที่ยอดเยี่ยม**: Sana ทำงานได้ดีในการทดสอบหลายครั้ง โดยมีปริมาณงานสูงกว่ารุ่นขั้นสูงอื่นๆ อย่างมาก รองรับการสร้างเนื้อหาที่รวดเร็ว

โดยรวมแล้ว Sana นำเสนอประสบการณ์การสร้างภาพ AI ใหม่ให้กับผู้ใช้ด้วยความเร็วในการสร้างที่มีประสิทธิภาพ เอาต์พุตภาพคุณภาพสูง และการใช้งานที่สะดวกสบาย คุ้มค่าที่จะรอคอยการพัฒนาในอนาคต