Hugging Face ได้เปิดตัวโมเดลการสร้างข้อความเป็นรูปภาพขนาดเล็กที่เรียกว่า aMUSEd ซึ่งใช้สถาปัตยกรรม Masked Image Model (MIM) และลดเวลาในการสร้างภาพลงอย่างมาก เมื่อเปรียบเทียบกับโมเดลการแปลงข้อความเป็นรูปภาพแบบดั้งเดิม aMUSEd มีการปรับปรุงความเร็วและความสามารถในการตีความหมายอย่างมีนัยสำคัญ และความสามารถในการสร้างภาพอย่างรวดเร็วก็น่าประทับใจ ปัจจุบันโมเดล aMUSEd มีให้บริการเป็นตัวอย่างการวิจัยบนแพลตฟอร์ม Hugging Face และใช้ใบอนุญาต OpenRAIL เพื่อส่งเสริมการมีส่วนร่วมและการมีส่วนร่วมของชุมชน
โมเดล aMUSEd ที่เปิดตัวโดย Hugging Face สามารถสร้างภาพได้ภายในไม่กี่วินาที โดยใช้โมเดลข้อความเป็นรูปภาพแบบน้ำหนักเบา และใช้สถาปัตยกรรม Masked Image Model (MIM) ซึ่งช่วยลดขั้นตอนการให้เหตุผลได้อย่างมาก และปรับปรุงความเร็วในการสร้างและการตีความ สามารถทดลองใช้โมเดล aMUSEd ได้ในการสาธิตบน Hugging Face และขณะนี้พร้อมให้ใช้งานในรูปแบบตัวอย่างการวิจัยภายใต้ใบอนุญาต OpenRAIL ซึ่งชุมชนได้รับการสนับสนุนให้สำรวจเพิ่มเติมเกี่ยวกับเฟรมเวิร์กการไม่แพร่กระจายสำหรับการสร้างภาพความสามารถในการสร้างอย่างรวดเร็วของโมเดล aMUSEd และใบอนุญาตแบบเปิดทำให้มีศักยภาพในการพัฒนาที่ยอดเยี่ยม โดยคาดว่าจะมีบทบาทมากขึ้นในด้านการสร้างภาพในอนาคต และยังถือเป็นแนวทางใหม่สำหรับการพัฒนาเทคโนโลยีปัญญาประดิษฐ์อีกด้วย เราหวังว่าชุมชนจะสำรวจและเพิ่มประสิทธิภาพโมเดลนี้ต่อไป