ทีมเทคโนโลยีเชิงพาณิชย์ของ ByteDance ได้เปิดแหล่งที่มาของกราฟ Vincent รุ่น Infinity ที่พัฒนาขึ้นล่าสุด โมเดลนี้ได้สร้างความก้าวหน้าครั้งสำคัญในด้านคุณภาพการสร้างภาพและความเร็วในการอนุมาน ซึ่งเหนือกว่าโมเดลชั้นนำในอุตสาหกรรมมากมาย เช่น Stable Diffusion 3 และ HART, LlamaGen และคณะ นวัตกรรมหลักของโมเดล Infinity นั้นอยู่ในเฟรมเวิร์ก Bitwise Token แบบ autoregressive และคำศัพท์ที่ไม่มีที่สิ้นสุด ซึ่งช่วยให้โมเดลสามารถจับรายละเอียดของภาพได้ละเอียดยิ่งขึ้น และปรับปรุงคุณภาพและประสิทธิภาพของขีดจำกัดบนของรูปภาพที่สร้างขึ้นได้อย่างมาก บทความนี้จะแนะนำรายละเอียดทางเทคนิค ประสิทธิภาพ และสถานการณ์โอเพ่นซอร์สของรุ่น Infinity
ในด้านปัญญาประดิษฐ์ โมเดล Infinity ซึ่งเป็นความสำเร็จล่าสุดของทีมเทคโนโลยีเชิงพาณิชย์ของ ByteDance ได้กลายเป็นราชาองค์ใหม่ในด้านกราฟ Vincentian แบบ autoregressive ด้วยประสิทธิภาพที่ยอดเยี่ยมและเทคโนโลยีที่เป็นนวัตกรรม โมเดลโอเพ่นซอร์สใหม่นี้ไม่เพียงแต่เหนือกว่า Stable Diffusion3 ในด้านคุณภาพการสร้างภาพ แต่ยังแสดงให้เห็นถึงข้อได้เปรียบที่สำคัญในด้านความเร็วในการอนุมานอีกด้วย
นวัตกรรมหลักของโมเดล Infinity คือการปรับใช้เฟรมเวิร์ก Bitwise Token แบบ autoregressive ความละเอียดระดับความสามารถในการจับภาพส่งผลให้ได้ภาพที่มีรายละเอียดมากขึ้น นอกจากนี้ โมเดล Infinity ยังขยายคำศัพท์ไปสู่ระยะอนันต์ ซึ่งช่วยเพิ่มพื้นที่การเป็นตัวแทนของ Image tokenizer อย่างมาก และปรับปรุงประสิทธิภาพขีดจำกัดบนของ venogram แบบ autoregressive
ในการเปรียบเทียบประสิทธิภาพ โมเดล Infinity ดำเนินการได้อย่างโดดเด่นในบรรดาวิธี autoregressive ซึ่งเหนือกว่า HART, LlamaGen, Emu3 และวิธีการอื่นๆ อย่างมาก และเอาชนะโมเดล HART ในการประเมินโดยมนุษย์ด้วยอัตราการชนะเกือบ 90% ในเวลาเดียวกัน Infinity ยังเอาชนะโมเดลการแพร่กระจายของ SOTA เช่น PixArt-Sigma, SD-XL, SD3-Meidum ฯลฯ ด้วยอัตราการชนะ 75%, 80% และ 65% ซึ่งพิสูจน์ให้เห็นถึงความได้เปรียบของโมเดลที่มีขนาดเท่ากัน .
คุณสมบัติที่สำคัญอีกประการหนึ่งของรุ่น Infinity คือลักษณะการปรับขนาดที่ดี เมื่อขนาดโมเดลเพิ่มขึ้นและมีการลงทุนทรัพยากรการฝึกอบรม การสูญเสียชุดการตรวจสอบความถูกต้องจะลดลงอย่างต่อเนื่อง และความแม่นยำของชุดการตรวจสอบความถูกต้องจะเพิ่มขึ้นอย่างต่อเนื่อง นอกจากนี้ Infinity ยังเสนอเทคโนโลยีการแก้ไขตัวเองด้วยบิต ซึ่งช่วยเพิ่มความสามารถในการแก้ไขตัวเองของแบบจำลอง และบรรเทาปัญหาข้อผิดพลาดสะสมในระหว่างการให้เหตุผลแบบถดถอยอัตโนมัติ
ในแง่ของความเร็วอนุมาน Infinity จะสืบทอดข้อได้เปรียบด้านความเร็วของ VAR โดยใช้เวลาเพียง 0.8 วินาทีสำหรับรุ่น 2B ในการสร้างภาพขนาด 1024x1024 ซึ่งเร็วกว่า SD3-Medium ในขนาดเดียวกันถึง 3 เท่า และเร็วกว่า 12B Flux Dev ถึง 14 เท่า . รุ่น 8B เร็วกว่า SD3.5 ที่มีขนาดเท่ากันถึง 7 เท่า รุ่น 20B ใช้เวลา 3 วินาทีในการสร้างภาพขนาด 1024x1024 ซึ่งเร็วกว่ารุ่น 12B Flux Dev เกือบ 4 เท่า
ปัจจุบัน รหัสการฝึกอบรมและการอนุมาน การสาธิต และน้ำหนักโมเดลของโมเดล Infinity ได้รับการเปิดตัวในคลังสินค้า GitHub และยังมีการมอบประสบการณ์เว็บไซต์เพื่ออำนวยความสะดวกให้ผู้ใช้สามารถทดลองและประเมินผลกระทบของโมเดล
หน้าโครงการ: https://foundationvision.github.io/infinity.project/
โดยรวมแล้ว โมเดล Infinity ได้นำความก้าวหน้าใหม่ๆ มาสู่วงการกราฟ Vincentian แบบถดถอยอัตโนมัติด้วยสถาปัตยกรรมทางเทคนิคขั้นสูง ประสิทธิภาพที่ยอดเยี่ยม และวิธีการโอเพ่นซอร์สที่สะดวก ซึ่งสมควรได้รับความสนใจและการวิจัยเพิ่มเติม ความเร็วในการอนุมานที่มีประสิทธิภาพและความสามารถในการสร้างภาพคุณภาพสูงทำให้มีศักยภาพที่ดีเยี่ยมในการใช้งานจริง