นักวิจัยที่ OpenAI ได้เปิดตัวโมเดลความสอดคล้องตามเวลาต่อเนื่อง (sCM) ที่น่าประทับใจ ซึ่งประสบความสำเร็จในการพัฒนาความเร็วในการสร้างเนื้อหามัลติมีเดีย โดยสร้างภาพได้เร็วกว่าโมเดลการแพร่กระจายแบบเดิมถึง 50 เท่า โดยใช้เวลาน้อยกว่า 0.1 สามารถสร้างภาพได้ภายในไม่กี่วินาที งานวิจัยนี้ร่วมเขียนโดย Lu Cheng และ Yang Song และบทความนี้ได้รับการตีพิมพ์บน arXiv.org แม้ว่าจะยังไม่ได้รับการตรวจสอบจากผู้ทรงคุณวุฒิ แต่ผลกระทบที่อาจเกิดขึ้นนั้นมีมหาศาล และถือเป็นการประกาศถึงการก้าวกระโดดครั้งใหญ่ของ AI ที่สร้างแบบเรียลไทม์ การใช้งาน บรรณาธิการของ Downcodes จะทำให้คุณมีความเข้าใจเชิงลึกเกี่ยวกับนวัตกรรมและแนวโน้มการใช้งานในอนาคตของโมเดล sCM
เมื่อเร็วๆ นี้ นักวิจัยที่ OpenAI เผยแพร่ผลการวิจัยที่น่าตื่นเต้น โดยแนะนำโมเดลความสอดคล้องตามเวลาต่อเนื่อง (sCM) ใหม่ โมเดลนี้มีความเร็วก้าวกระโดดในการสร้างเนื้อหามัลติมีเดีย (เช่น รูปภาพ วิดีโอ และเสียง) ซึ่งเร็วกว่าโมเดลการแพร่กระจายแบบดั้งเดิมถึง 50 เท่าเต็ม โดยเฉพาะอย่างยิ่ง sCM สามารถสร้างภาพได้ในเวลาน้อยกว่า 0.1 วินาที ในขณะที่โมเดลการแพร่กระจายแบบดั้งเดิมมักต้องใช้เวลามากกว่า 5 วินาที
ด้วยเทคโนโลยีนี้ ทีมวิจัยประสบความสำเร็จในการสร้างตัวอย่างคุณภาพสูงด้วยขั้นตอนการสุ่มตัวอย่างเพียงสองขั้นตอน นวัตกรรมนี้ทำให้กระบวนการผลิตมีประสิทธิภาพมากขึ้นโดยไม่ทำให้คุณภาพของตัวอย่างลดลง บทความนี้เขียนร่วมโดยนักวิจัยสองคนจาก OpenAI, Lu Cheng และ Yang Song และได้รับการเผยแพร่บน arXiv.org แม้ว่าจะยังไม่ได้รับการตรวจสอบโดยผู้ทรงคุณวุฒิ แต่ผลกระทบที่อาจเกิดขึ้นก็ไม่สามารถประเมินได้
Yang Song เสนอแนวคิดเรื่อง "แบบจำลองความสอดคล้อง" เป็นครั้งแรกในรายงานปี 2023 ซึ่งวางรากฐานสำหรับการพัฒนา sCM แม้ว่าแบบจำลองการแพร่กระจายจะยอดเยี่ยมในการสร้างภาพเสมือนจริง แบบจำลอง 3 มิติ เสียง และวิดีโอ แต่แบบจำลองเหล่านี้ไม่ได้มีประสิทธิภาพมากนักในการสุ่มตัวอย่าง โดยมักต้องใช้ขั้นตอนหลายสิบถึงหลายร้อยขั้นตอน ทำให้ไม่สามารถใช้งานได้จริงในแอปพลิเคชันแบบเรียลไทม์
การสุ่มตัวอย่างเร็วขึ้น
จุดเด่นที่ใหญ่ที่สุดของโมเดล sCM คือ สามารถบรรลุความเร็วการสุ่มตัวอย่างที่เร็วขึ้น โดยไม่เพิ่มภาระในการคำนวณ โมเดล sCM ที่ใหญ่ที่สุดของ OpenAI มีพารามิเตอร์ 1.5 พันล้านพารามิเตอร์ และบน A100 GPU เวลาในการสร้างตัวอย่างคือเพียง 0.11 วินาที ซึ่งส่งผลให้เวลานาฬิกาแขวนเร็วขึ้น 50 เท่า เมื่อเทียบกับโมเดลการแพร่กระจาย ทำให้แอปพลิเคชัน AI ที่สร้างแบบเรียลไทม์เป็นไปได้มากขึ้น
ต้องใช้ทรัพยากรการประมวลผลน้อยลง
ในแง่ของคุณภาพตัวอย่าง sCM ได้รับการฝึกอบรมเกี่ยวกับชุดข้อมูล ImageNet 512×512 และได้รับคะแนน Fréchet Inception Distance (FID) ที่ 1.88 ซึ่งน้อยกว่า 10% จากแบบจำลองการแพร่กระจายระดับบนสุด ทีมวิจัยแสดงให้เห็นว่า sCM ให้ผลลัพธ์ที่ยอดเยี่ยมพร้อมทั้งลดค่าใช้จ่ายในการคำนวณลงอย่างมากด้วยการเปรียบเทียบอย่างกว้างขวางกับโมเดลกำเนิดขั้นสูงอื่นๆ
ในอนาคต การสุ่มตัวอย่างอย่างรวดเร็วและความสามารถในการปรับขนาดของโมเดล sCM จะเปิดโอกาสใหม่ๆ สำหรับแอปพลิเคชัน AI ที่สร้างแบบเรียลไทม์ในหลายสาขา ตั้งแต่การสร้างภาพไปจนถึงการสังเคราะห์เสียงและวิดีโอ sCM มอบโซลูชันที่ใช้งานได้จริงสำหรับความต้องการเอาต์พุตที่รวดเร็วและมีคุณภาพสูง ในเวลาเดียวกัน การวิจัยของ OpenAI ยังชี้ให้เห็นถึงศักยภาพในการเพิ่มประสิทธิภาพระบบเพิ่มเติม ซึ่งอาจเร่งประสิทธิภาพของโมเดลตามความต้องการของอุตสาหกรรมต่างๆ
บล็อกอย่างเป็นทางการ: https://openai.com/index/simplifying-stabilizing-and-scaling-continuous-time-consistency-models/
บทความ: https://arxiv.org/html/2410.11081v1
การเกิดขึ้นของโมเดล sCM ถือเป็นความก้าวหน้าครั้งสำคัญในด้านการสร้างภาพ AI ความเร็วในการสุ่มตัวอย่างที่มีประสิทธิภาพและเอาต์พุตคุณภาพสูงได้เปิดบทใหม่สำหรับการใช้งานแบบเรียลไทม์ ศักยภาพในการพัฒนาในอนาคตนั้นไร้ขีดจำกัดและคุ้มค่ากับการรอคอย!