บรรณาธิการของ Downcodes ได้เรียนรู้ว่า Stability AI เพิ่งเปิดตัวโมเดลการสร้างข้อความเป็นรูปภาพ Stable Diffusion 3.5 ซึ่งประกอบด้วยสามเวอร์ชัน: Stable Diffusion 3.5 Large, Stable Diffusion 3.5 Large Turbo และ Stable Diffusion 3.5 Medium ออกแบบมาเพื่อตอบสนองความต้องการของ ผู้ใช้ที่แตกต่างกัน ตั้งแต่มืออาชีพไปจนถึงผู้ชื่นชอบทั่วไป การอัปเดตนี้เป็นการตอบสนองของ Stability AI ต่อข้อบกพร่องของเวอร์ชันก่อนหน้า และมีเป้าหมายเพื่อปรับปรุงความสามารถในการแข่งขันและแข่งขันกับแพลตฟอร์ม เช่น DALL-E และ Midjourney ของ OpenAI โมเดลใหม่มีการปรับปรุงคุณภาพของภาพ ความเร็วในการสร้าง และความสะดวกในการใช้งานอย่างมาก และแนะนำเทคโนโลยีการปรับมาตรฐานคีย์คิวรีเพื่อปรับปรุงการปรับแต่งและการตอบสนองต่อข้อความแจ้งของโมเดล
เมื่อเร็วๆ นี้ Stability AI ได้เปิดตัวโมเดลการสร้างข้อความเป็นรูปภาพการเรียนรู้เชิงลึกล่าสุด - Stable Diffusion3.5 รุ่นนี้มีโอเพ่นซอร์สที่ได้รับการปรับปรุงสามรุ่น ซึ่งออกแบบมาเพื่อตอบสนองความต้องการของผู้ใช้ที่แตกต่างกัน รวมถึงนักวิจัย ลูกค้าองค์กร และผู้ที่ชื่นชอบ
ในบรรดารุ่นเหล่านั้น Stable Diffusion3.5Large เป็นรุ่นที่ทรงพลังที่สุดในซีรีส์ทั้งหมด โดยมีพารามิเตอร์สูงถึง 8.1 พันล้าน รุ่นนี้เหมาะสำหรับผู้ใช้มืออาชีพเนื่องจากคุณภาพของภาพที่ยอดเยี่ยมและการตอบสนองต่อการแจ้งเตือนสูง สามารถสร้างภาพคุณภาพสูงที่มีความละเอียดสูงถึง 1 ล้านพิกเซล
นอกจากนี้ Stable Diffusion3.5Large Turbo ยังเป็นเวอร์ชันที่เรียบง่ายของ Stable Diffusion3.5Large ช่วยเพิ่มความเร็วได้อย่างมากในขณะที่สร้างภาพคุณภาพสูง ใช้เวลาเพียง 4 ขั้นตอนในการสร้างภาพให้เสร็จสมบูรณ์ มีประสิทธิภาพมากกว่าเวอร์ชันก่อนหน้า และเหมาะสำหรับผู้ใช้ที่ต้องการสร้างภาพอย่างรวดเร็ว
รุ่นใหม่อีกรุ่นหนึ่งคือ Stable Diffusion3.5Medium ซึ่งมีพารามิเตอร์ 2.5 พันล้านตัว โมเดลนี้ใช้สถาปัตยกรรม MMDiT-X และวิธีการฝึกอบรมที่ได้รับการปรับปรุง และได้รับการออกแบบมาให้ใช้งาน "นอกกรอบ" และทำงานได้อย่างราบรื่นแม้บนฮาร์ดแวร์ระดับผู้บริโภค มีความสมดุลที่ดีระหว่างคุณภาพการสร้างภาพและความง่ายในการปรับแต่ง โดยให้ภาพที่มีความละเอียดตั้งแต่ 0.25 ถึง 2 ล้านพิกเซล
เบื้องหลังของการเปิดตัวครั้งนี้ก็คือ หลังจากที่ Stable Diffusion3Medium เปิดตัวในเดือนมิถุนายนไม่สามารถตอบสนองความคาดหวังได้ Stability AI ก็ตัดสินใจเปิดตัวโซลูชันที่พลิกโฉมมากขึ้น บริษัทกล่าวว่าหวังว่าจะฟื้นความสามารถในการแข่งขันในตลาดด้วยการอัปเดตนี้เพื่อเผชิญกับความท้าทายจากแพลตฟอร์มเช่น DALL-E ของ OpenAI และ Midjourney
นวัตกรรมทางเทคนิคที่สำคัญของโมเดลใหม่คือการแนะนำเทคโนโลยี Query-Key Normalization นวัตกรรมนี้ปรับปรุงการปรับแต่งโมเดลและการตอบสนองต่อข้อความแจ้ง ทำให้ผู้ใช้สามารถได้รับผลลัพธ์ที่สม่ำเสมอมากขึ้นด้วยข้อความแจ้งที่ชัดเจน รวมถึงการตีความภาพที่สมบูรณ์ยิ่งขึ้นเมื่อใช้ข้อความแจ้งที่กว้างขึ้น
โมเดลซีรีส์ Stable Diffusion3.5 จะเปิดตัวภายใต้ใบอนุญาตชุมชนของ Stability AI ซึ่งช่วยให้ผู้ใช้สามารถใช้งานได้ฟรีสำหรับการใช้ที่ไม่ใช่เชิงพาณิชย์ ในขณะเดียวกัน องค์กรที่มีรายได้ต่อปีน้อยกว่า 1 ล้านดอลลาร์สหรัฐก็สามารถใช้งานได้ฟรี และผู้ใช้ที่มีรายได้มากกว่านี้จะต้องสมัครขอใบอนุญาตระดับองค์กร
โมเดลทั้งหมดและน้ำหนักที่จำเป็นสำหรับการโฮสต์ด้วยตนเองจะมีอยู่ใน API ของ Hugging Face และ Stability AI นอกจากนี้ คาดว่าฟังก์ชันการทำงานของ ControlNets ที่ให้ตัวเลือกการปรับแต่งภาพขั้นสูงคาดว่าจะเปิดตัวในอีกไม่กี่วันข้างหน้า
ทางเข้าอย่างเป็นทางการ:
https://stability.ai/stable-image
ทางเข้า Hugging Face สามเวอร์ชัน:
https://huggingface.co/stabilityai/stable-diffusion-3.5-large
https://huggingface.co/stabilityai/stable-diffusion-3.5-large-turbo
https://huggingface.co/stabilityai/stable-diffusion-3.5-medium
โดยรวมแล้ว การเปิดตัวซีรีส์ Stable Diffusion 3.5 ถือเป็นความก้าวหน้าที่สำคัญในเทคโนโลยีการสร้างข้อความเป็นรูปภาพ ทำให้ผู้ใช้มีทางเลือกและฟีเจอร์ที่มีประสิทธิภาพมากขึ้น บรรณาธิการของ Downcodes รอคอยที่จะมีฟีเจอร์ที่เป็นนวัตกรรมเพิ่มเติมเกิดขึ้นในอนาคต