การเปิดตัวโมเดล Stable Diffusion 3 ถือเป็นความก้าวหน้าครั้งสำคัญในการสร้างข้อความเป็นรูปภาพ รุ่นนี้ใช้สถาปัตยกรรม DiT แบบเดียวกับ Sora และปรับปรุงคุณภาพการสร้างภาพอย่างมากผ่านชุดการปรับปรุงทางเทคนิค ขนาดพารามิเตอร์มีตั้งแต่ 800M ถึง 8B ซึ่งแสดงประสิทธิภาพที่แข็งแกร่งและศักยภาพการใช้งานที่ยืดหยุ่น เป็นที่น่าสังเกตว่าทีม R&D ของ SD3 บูรณาการความเชี่ยวชาญของสมาชิก R&D หลักของ Sora และผู้ช่วยศาสตราจารย์ของ NYU และใช้สถาปัตยกรรม MMDiT ที่เหนือกว่า UViT และ DiT รวมถึงตัวแปรสูตร Rectified Flow (RF) ที่เป็นนวัตกรรมใหม่ ซึ่งได้แก่ เป็นรากฐานที่มั่นคงสำหรับการปรับปรุงประสิทธิภาพของโมเดล
เปิดตัวโมเดล Stable Diffusion 3 โดยใช้สถาปัตยกรรม DiT แบบเดียวกับ Sora พร้อมการปรับปรุงคุณภาพที่สำคัญ ผู้เขียนระบุว่า Stable Diffusion 3 มีประสิทธิภาพเหนือกว่าระบบการสร้างข้อความเป็นรูปภาพอื่นๆ โดยมีขนาดพารามิเตอร์ตั้งแต่ 800M ถึง 8B สถาปัตยกรรม SD3 ขึ้นอยู่กับการทำงานร่วมกันระหว่างสมาชิก R&D หลักของ Sora และผู้ช่วยศาสตราจารย์ที่มหาวิทยาลัยนิวยอร์ก โดยใช้สถาปัตยกรรม MMDiT เพื่อให้เหนือกว่า UViT และ DiT Stable Diffusion 3 ใช้สูตร Rectified Flow (RF) และประสิทธิภาพของตัวแปร RF ที่ปรับปรุงใหม่ซึ่งเสนอโดยผู้เขียนยังคงได้รับการปรับปรุงอย่างต่อเนื่อง โมเดลนี้ได้รับการขยายและปรับปรุงโดยใช้ตัวเข้ารหัสข้อความแบบยืดหยุ่น และประสิทธิภาพเมื่อเปรียบเทียบกับรุ่นอื่นๆ
การเปิดตัว Stable Diffusion 3 ไม่เพียงแต่สะท้อนให้เห็นถึงการพัฒนาอย่างรวดเร็วของเทคโนโลยีการสร้างข้อความเป็นภาพ แต่ยังบ่งชี้ว่าโมเดลที่ทรงพลังมากขึ้นจะเกิดขึ้นในด้านการสร้างภาพ AI ในอนาคต สถาปัตยกรรมและอัลกอริธึมที่ได้รับการปรับปรุง รวมถึงการเปรียบเทียบประสิทธิภาพกับรุ่นอื่นๆ มอบข้อมูลอ้างอิงและการอ้างอิงที่มีคุณค่าสำหรับนักวิจัยและนักพัฒนา เราหวังเป็นอย่างยิ่งว่า Stable Diffusion 3 จะสามารถมีบทบาทในสถานการณ์การใช้งานต่างๆ ได้มากขึ้นในอนาคต