MiniMax Yan Junjie: ความเร็วนั้นดีสำหรับรุ่นใหญ่ แต่บางครั้งการช้าก็เพื่อให้เร็วขึ้นเท่านั้น

ผู้เขียน：Eve Cole เวลาอัปเดต：2024-11-22 18:24:02

โมเดลขนาดใหญ่เป็นสาขาที่ความเร็วเป็นกุญแจสำคัญ แต่บางครั้งความช้าก็อาจเป็นความเร็วอีกประเภทหนึ่งได้

เมื่อวันที่ 31 สิงหาคม บริษัท MiniMax Shanghai Xiyu Technology Co., Ltd. (ต่อไปนี้จะเรียกว่า "MiniMax") ซึ่งเป็นบริษัทยูนิคอร์นด้าน AI ในประเทศ ได้เปิดตัวโมเดลวิดีโอ abab-video-1 ในการประชุมนักพัฒนาครั้งแรก "MiniMaxLink Partner Day" ข้อความแจ้งว่าสามารถสร้างวิดีโอที่มีความยาวสูงสุด 6 วินาที โดยเน้นที่ความละเอียดสูงและอัตราเฟรมสูง

กล่าวอีกนัยหนึ่ง โมเดลวิดีโอที่ MiniMax กล่าวถึงนั้นคล้ายคลึงกับโมเดลวิดีโอ Vincent ของ Sora ของ OpenAI ในฐานะผู้ก่อตั้งและซีอีโอของ MiniMax Yan Junjie เชื่อว่า "ความรวดเร็ว" คือเป้าหมายหลักในการวิจัยและพัฒนาเทคโนโลยีของโมเดลขนาดใหญ่ของบริษัท อย่างไรก็ตาม โมเดลวิดีโอยังตามหลัง Sora หลายเดือน

“เหตุใดการเปิดตัวของเราจึงล่าช้าไปหนึ่งหรือสองเดือน สิ่งสำคัญคือเรากำลังแก้ไขปัญหาทางเทคนิคที่ยากขึ้น นั่นคือวิธีฝึกสิ่งต่าง ๆ ที่มีพลังการประมวลผลค่อนข้างสูง” Yan Junjie กล่าวกับนักข่าวจาก China Business News ว่าในระหว่างนั้น การฝึกอบรม เมื่อพัฒนาความสามารถในการสร้างวิดีโอ คุณต้องแปลงวิดีโอเป็นโทเค็นก่อน และโทเค็นเหล่านี้จะยาวมากและความซับซ้อนจะสูงขึ้น "อันที่จริงสิ่งที่เราทำส่วนใหญ่ในช่วงครึ่งปีแรกคือการลด ความซับซ้อน ทำให้อัตราส่วนการบีบอัดสูงขึ้น จึงล่าช้าไปหนึ่งหรือสองเดือน”

MiniMax กล่าวว่าจากการประเมินภายในและคะแนนการดำเนินการ โมเดลวิดีโอของบริษัททำงานได้ดีกว่ารันเวย์ ปัจจุบัน Keling ได้เปิดตัวรูปแบบการสมัครสมาชิกเชิงพาณิชย์ในรูปแบบเชิงพาณิชย์ แล้วโมเดลธุรกิจของโมเดลวิดีโอ MiniMax จะเป็นอย่างไร? ในเรื่องนี้ Yan Junjie กล่าวว่า "กลยุทธ์ของเราคือการรออีกหนึ่งหรือสองสัปดาห์ หลังจากที่มีสิ่งใหม่ๆ ออกมาและเราอยู่ในสถานะที่น่าพอใจมากขึ้น เราอาจพิจารณา (ดำเนินการ) ดำเนินการเชิงพาณิชย์ (มาตรการ) บางอย่าง"

นอกจากนี้เขายังกล่าวด้วยว่าเนื่องจากความก้าวหน้าอย่างรวดเร็วของโมเดล แม้ว่าวิดีโอที่สร้างโดย AI จะไม่สามารถแทนที่เอ็นจิ้นการเรนเดอร์แบบเดิมได้ แต่อย่างน้อยก็ "อย่างน้อยก็ให้ความเป็นไปได้" สำหรับการสร้างเกม 3A เช่น "Black Myth: Wukong"

พิจารณาการค้าเฉพาะเมื่อคุณพอใจมากขึ้นเท่านั้น

แม้ว่าไม่ได้กล่าวถึงเส้นทางการค้าของโมเดลวิดีโอ แต่ Yan Junjie กล่าวว่า "โดยพื้นฐานแล้วการค้าของบริษัททั้งหมดแบ่งออกเป็นสองรูปแบบ รูปแบบหนึ่งคือแพลตฟอร์มแบบเปิดของเรา ซึ่งขณะนี้มีลูกค้ามากกว่า 2,000 ราย รวมถึงลูกค้าที่เป็นที่รู้จักจำนวนมาก บริษัทอินเทอร์เน็ต รวมถึงองค์กรแบบดั้งเดิมมีความสามารถสำหรับผู้ใช้ในการใช้เสียงและการมองเห็น ไม่ใช่ทุกบริษัทที่สามารถทำได้ด้วยตนเองเหมือน Kuaishou เราเป็นพันธมิตรที่ดี และนี่คือส่วนหนึ่งของ 2B”

"ประการที่สองคือผลิตภัณฑ์ของเราเองมีกลไกการโฆษณา และการโฆษณาสามารถสร้างรายได้ในเชิงพาณิชย์ได้" Yan Junjie เชื่อว่าในระยะปัจจุบัน "สิ่งที่สำคัญที่สุดไม่ใช่การทำให้เป็นเชิงพาณิชย์ แต่ทำให้เทคโนโลยีนี้เข้าถึงได้อย่างกว้างขวาง" ความพร้อมใช้งาน”

วิดีโอที่สร้างโดย AI (โมเดลวิดีโอ) ซึ่งมีเทคโนโลยีที่ค่อนข้างซับซ้อนกลายเป็นการดำเนินการทั่วไปสำหรับผู้ผลิตโมเดลรายใหญ่เพื่อแสดงความแข็งแกร่งหรือ "เกร็งกล้ามเนื้อ" ในปีนี้ และ OpenAI ได้เริ่มดำเนินการแล้ว ในเดือนกุมภาพันธ์ของปีนี้ OpenAI ได้เปิดตัว Sora ซึ่งเป็นโมเดลวิดีโอขนาดใหญ่ แต่ยังไม่ได้เปิดตัวสำหรับการทดสอบสาธารณะ ในเดือนเมษายน Shengshu Technology เปิดตัวโมเดลวิดีโอขนาดใหญ่ Vidu; Kuaishou เปิดตัวโมเดลวิดีโอขนาดใหญ่ Keling; ในเดือนกรกฎาคม โมเดลวิดีโอที่สร้างโดย Zhipu AI Qingying ได้เปิดตัวอย่างเป็นทางการ...

ทำไม MiniMax ถึงต้องการสร้างโมเดลวิดีโอ? Yan Junjie กล่าวว่าเนื้อหาส่วนใหญ่ที่มนุษย์บริโภคทุกวันคือรูปภาพ ข้อความ และวิดีโอ และข้อความไม่ได้มีสัดส่วนที่สูงนัก “เพื่อให้มีความครอบคลุมผู้ใช้สูงและความลึกในการใช้งานที่สูงขึ้น ผู้ผลิตโมเดลรายใหญ่ หนทางเดียวคือสามารถส่งออกเนื้อหาหลายรูปแบบ แทนที่จะส่งออกเฉพาะเนื้อหาที่เป็นข้อความเพียงอย่างเดียว นี่เป็นวิจารณญาณที่สำคัญอย่างยิ่ง"

เขากล่าวต่อว่า “แค่เราสร้างข้อความก่อน แล้วสร้างเสียง แล้วเราก็สร้างภาพเมื่อนานมาแล้ว ตอนนี้เทคโนโลยีแข็งแกร่งขึ้นแล้ว (สามารถ) ทำวิดีโอได้ด้วย เส้นทางนี้มีความสม่ำเสมอ มันต้องมีหลาย -modal "ในอดีต MiniMax ได้สร้างโมเดลภาษาขนาดใหญ่ จากนั้นจึงสร้างโมเดลเสียง จากนั้นจึงสร้างโมเดลรูปภาพ" แต่ตอนนี้เทคโนโลยีมีความเข้มแข็งมากขึ้น และจะต้องสร้างวิดีโอเส้นทางนี้ให้สอดคล้องกัน กิริยา”

ตามที่วิศวกรอัลกอริทึม AI Zhang Yuxuan กล่าว แม้ว่า MiniMax จะไม่ได้ประกาศพารามิเตอร์เฉพาะและประเด็นทางเทคนิคของโมเดลวิดีโอ แต่ก็สามารถเห็นได้จากวิดีโอการสร้างโมเดลที่แสดงว่าอัลกอริทึมของบริษัทยังคงแข็งแกร่งมาก และ Keling ของ Kuaishou นั้นค่อนข้างเป็นวิศวกรรม ดีกว่า.

Yan Junjie กล่าวกับผู้สื่อข่าวว่า "ไม่ว่าจะเป็นวิดีโอ ข้อความ หรือเสียง แนวคิดหลักในการวิจัยและพัฒนาของทีม MiniMax ไม่ใช่การปรับปรุงอัลกอริทึม 5% หรือ 10% สิ่งที่สำคัญกว่าคือสามารถเป็นได้หรือไม่ ปรับปรุงได้หลายครั้ง หากปรับปรุงได้หลายครั้งก็ต้องทำไม่คุ้มที่จะทำหากเพิ่มขึ้นเพียง 5% เท่านั้น”

เป็นที่เข้าใจกันว่าปัจจุบันโมเดลวิดีโอของ MiniMax เป็นเพียงเวอร์ชันแรกและจะให้บริการแก่ผู้ใช้โดยไม่เสียค่าใช้จ่ายในช่วงระยะเวลาหนึ่ง เวอร์ชันใหม่จะพร้อมใช้งานเร็วๆ นี้ “งานติดตามผลจะเน้นไปที่ข้อมูลและอัลกอริธึมเองรวมถึงรายละเอียดที่สะดวกในการใช้งานมากขึ้น เช่น ปัจจุบันมีเฉพาะวิดีโอแบบข้อความเท่านั้น ในอนาคตวิดีโอแบบรูปภาพ ข้อความ+รูปภาพที่สร้างวิดีโอ รวมถึงความสามารถในการแก้ไขและการควบคุมจะถูกปล่อยออกมาทีละรายการ” Yan Junjie กล่าว

"Black Myth: Wukong" ยังคงได้รับความนิยม และ AI ได้สร้างเกมเพลย์ใหม่ในเกม เมื่อเร็ว ๆ นี้ Google ชี้ให้เห็นในรายงานว่าพวกเขาได้สร้าง GameNGen เอ็นจิ้นเกมแบบเรียลไทม์ที่ขับเคลื่อนด้วย AI ตัวแรกซึ่งสามารถสร้างกราฟิกเกมของเกมยิงคลาสสิก "Doom" ในแบบเรียลไทม์ที่ 20 เฟรมต่อวินาทีทั้งหมด กราฟิกของเกมนั้นถูกสร้างขึ้นแบบเรียลไทม์ตามการทำงานของผู้เล่นและการโต้ตอบกับสภาพแวดล้อมที่ซับซ้อน และแต่ละเฟรมจะถูกคาดการณ์โดยแบบจำลองการแพร่กระจาย

แล้วอนาคตจะอีกไกลไหมที่ AI จะสร้างผลงานชิ้นเอกของเกม 3A แบบเรียลไทม์? Yan Junjie กล่าวว่า "Black Myth: Wukong" ยังคงใช้วิธีการสร้างแบบจำลองและการเรนเดอร์แบบดั้งเดิม วิธีการนี้มีความก้าวหน้าช้ามาก การสร้างวิดีโอและการสร้างข้อความจะเหมือนกันเมื่อสองปีที่แล้ว ขณะนี้มีและพัฒนาอย่างรวดเร็ว

“(การสร้างวิดีโอ) จริงๆ แล้วเป็นเพียงจุดเริ่มต้นเท่านั้น เพราะนี่เป็นเพียงปีแรกเท่านั้น และความก้าวหน้าจะเร็วมากอย่างแน่นอน ผมไม่รู้ว่าจะสามารถแทนที่เอ็นจิ้นการเรนเดอร์แบบเดิมๆ ได้หรือไม่ แต่อย่างน้อยก็สามารถให้ความเป็นไปได้ได้ เพราะความก้าวหน้านั้นรวดเร็ว ในระยะยาว ยิ่งก้าวหน้าเร็วเท่าไหร่ก็ยิ่งดีเท่านั้น” เหยียนจุนเจี๋ยกล่าว

การเติบโตอย่างมีนัยสำคัญในการใช้งานและความสามารถในการแข่งขันที่เพิ่มขึ้นของโมเดล

Fast เป็นคำสำคัญที่ Yan Junjie กล่าวถึงหลายครั้ง "ไม่ว่าเราจะทำ MoE, Linear Attention หรือการสำรวจอื่นๆ สิ่งสำคัญก็คือการสร้างเอฟเฟกต์แบบเดียวกันให้เร็วขึ้น" Yan Junjie กล่าวว่าความเร็วนั้นดี ซึ่งหมายความว่าพลังการประมวลผลแบบเดียวกันจะดีขึ้นได้ นี่คือแนวทางของ MiniMax การวิจัยและพัฒนาพื้นฐาน

ในเวลาเดียวกัน เขายังชี้ให้เห็นว่าวิธีการลดอัตราข้อผิดพลาดของแบบจำลองอย่างต่อเนื่อง อินพุตและเอาท์พุตที่ยาวอย่างไม่สิ้นสุด และหลายรูปแบบเป็นความท้าทายสามประการที่อุตสาหกรรมจำเป็นต้องแก้ไขต่อไป

จากข้อมูลของบริษัท MiniMax เคยประสบกับการเปลี่ยนแปลงทางเทคโนโลยีที่สำคัญสองประการในอดีต ได้แก่ MoE (Mixture of Experts, Mixed Expert Model) และ Linear Attention (ความสนใจเชิงเส้น) ในเดือนเมษายนของปีนี้ บริษัทได้พัฒนาโมเดลรุ่นใหม่โดยใช้ MoE+ Linear Attention ซึ่งเทียบได้กับ GPT-4o

ข้อมูลสาธารณะแสดงให้เห็นว่า MiniMax เป็นบริษัทสตาร์ทอัพด้านปัญญาประดิษฐ์ที่ก่อตั้งขึ้นในเดือนธันวาคม 2564 ก่อตั้งโดย Yan Junjie อดีตรองประธานของ SenseTime และอดีตรองผู้อำนวยการของสถาบันวิจัย สมาชิกของบริษัทส่วนใหญ่มาจาก AI ที่มีชื่อเสียง บริษัทต่างๆ เช่น SenseTime

Tianyancha แสดงให้เห็นว่าในเดือนมีนาคมปีนี้ MiniMax เสร็จสิ้นการจัดหาเงินทุน Series B มูลค่า 600 ล้านดอลลาร์สหรัฐ โดยมี Alibaba เป็นนักลงทุน และมูลค่าของ MiniMax สูงถึง 2.5 พันล้านดอลลาร์ ก่อนหน้านี้ในเดือนมิถุนายน 2023 MiniMax เสร็จสิ้นการระดมทุน Series A มูลค่ากว่า 250 ล้านดอลลาร์สหรัฐ และผู้ลงทุนคือ Tencent Investment

หนึ่งปีหลังจากการก่อตั้ง MiniMax ได้พัฒนาสถาปัตยกรรมโมเดลพื้นฐานของสามโหมดอย่างอิสระ: ข้อความเป็นภาพ ข้อความเป็นคำพูด และข้อความเป็นข้อความ และสร้างแพลตฟอร์มการให้เหตุผลทางคอมพิวเตอร์ตามโมเดลพื้นฐาน

ในแง่ของผลิตภัณฑ์ MiniMax ดูแลทั้งตลาดฝั่ง B และฝั่ง C แอปพลิเคชันฝั่ง C ได้แก่ แอปพลิเคชันแชท AI แบบเล่นตามบทบาท Glow, ซอฟต์แวร์โซเชียล AI Hoshino, ผู้ช่วยสนทนาด้วยเสียง AI Conch WeChat เป็นต้น B-side นำเสนอโซลูชันที่ปรับแต่งได้สำหรับองค์กร อินเทอร์เฟซ API ช่วยให้องค์กรต่างๆ สามารถเข้าถึงความสามารถต่างๆ ของโมเดล ABAB ได้ บริษัทต่างๆ เช่น Huoshan Engine, Kingsoft Office, DingTalk, Zhaopin Recruitment และ China Literature ต่างก็ใช้บริการของตน ข้อมูลอย่างเป็นทางการแสดงให้เห็นว่าปัจจุบันโมเดลของ MiniMax โต้ตอบกับผู้ใช้ทั่วโลกมากกว่า 3 พันล้านครั้งต่อวัน ประมวลผลโทเค็นข้อความมากกว่า 3 ล้านล้านรายการ รูปภาพ 20 ล้านภาพ และเสียง 70,000 ชั่วโมง ปีที่แล้ว เวลาในการโต้ตอบของ MiniMax เป็นเพียง 3% ของ ChatGPT และตอนนี้สัดส่วนนี้เพิ่มขึ้นเป็น 53%

ตั้งแต่เดือนพฤษภาคม สงครามราคาได้ปะทุขึ้นในด้านโมเดลขนาดใหญ่ และ API ได้ลดลงเหลือ "ราคากะหล่ำปลี" เมื่อพูดถึงสงครามราคาโมเดลขนาดใหญ่ Yan Junjie ชี้ให้เห็นว่าด้วยสงครามราคา บริษัทดั้งเดิมหลายแห่งเริ่มเต็มใจที่จะใช้โมเดลขนาดใหญ่ "พูดอย่างเป็นกลาง มันได้เพิ่มจำนวนการเรียกโมเดลอย่างมาก"

ในขณะเดียวกัน ยังส่งเสริมการปรับปรุงประสิทธิภาพของโมเดลจากด้านข้างอีกด้วย โมเดลขนาดใหญ่ของจีนก็มีความสามารถในการแข่งขันในเอเชียตะวันออกเฉียงใต้และประเทศอื่นๆ ในต่างประเทศ “การแข่งขันที่รุนแรงระหว่างโมเดลในประเทศทำให้เราต้องก้าวไปข้างหน้า อย่างน้อยในประเทศที่ไม่พูดภาษาอังกฤษ เราก็สามารถบรรลุระดับที่เทียบเท่ากับ GPT ได้” Yan Junjie กล่าวว่าการแข่งขันเป็นสิ่งที่หลีกเลี่ยงไม่ได้ เราต้องพยายามทำให้ดีที่สุด ด้านในแง่ดีแสดงให้เห็นถึงการเปลี่ยนแปลงเชิงบวกสองประการ ประการแรก การใช้โมเดลในประเทศขนาดใหญ่มีการเติบโตอย่างมาก และประการที่สอง โมเดลของจีนมีการแข่งขันในต่างประเทศมากขึ้นเรื่อยๆ

Yan Junjie กล่าวว่าบริษัทส่วนใหญ่คิดว่ารุ่นใหญ่มีราคาแพง แต่ต่อมาหลายคนกลับคิดว่ารุ่นใหญ่มีราคาถูกและสามารถใช้ได้อย่างมั่นใจ ในท้ายที่สุด ฉันรู้สึกประหลาดใจที่พบว่าบริษัทดั้งเดิมหลายแห่งเต็มใจที่จะใช้โมเดลขนาดใหญ่อยู่แล้ว พวกเขาคิดว่าต้นทุนยังต่ำอยู่ และไม่สำคัญว่าพวกเขาจะทำผิดพลาดหรือไม่ พูดตามความเป็นจริง สิ่งนี้ได้เพิ่มจำนวนการเรียกโมเดลอย่างมาก ดังนั้นจึงส่งเสริมให้โมเดลทำงานได้ดีขึ้น อย่างน้อยในตอนนี้ ระดับของโมเดลขนาดใหญ่ในประเทศก็เทียบได้กับ GPT ดังนั้น จากมุมมองในแง่ดี การใช้โมเดลในประเทศขนาดใหญ่จึงเพิ่มขึ้นอย่างมาก และโมเดล AI ขนาดใหญ่ของจีนก็มีการแข่งขันในต่างประเทศมากขึ้นเรื่อยๆ

เมื่อพูดถึงความเป็นไปได้ของการแข่งขันแบบเผชิญหน้ากับบริษัทอินเทอร์เน็ตรายใหญ่ Yan Junjie กล่าวว่าสิ่งที่เขาสามารถทำได้คือขยายขอบเขตสิ่งที่มีศักยภาพที่จะแข็งแกร่งขึ้นอย่างไม่มีที่สิ้นสุด วิธีหนึ่งคือการปรับปรุงเทคโนโลยี และอีกอย่างคือทำอย่างไร มีความร่วมมือที่ดีขึ้นกับผู้ใช้สร้าง