นับตั้งแต่กำเนิดของโซระ ซึ่งนำไปสู่ยุคใหม่ของวิดีโอ AI ผู้เล่นหลักทั้งในและต่างประเทศได้เข้าร่วมการแข่งขันวิดีโอ AI อย่างต่อเนื่อง แต่เมื่อเราเข้าสู่ยุคใหม่ของวิดีโอที่มีการโต้ตอบและดื่มด่ำมากขึ้น เราจะจัดการกับความท้าทายด้านต้นทุน คุณภาพ และประสิทธิภาพได้อย่างไร
เมื่อวันที่ 15 ตุลาคม Volcano Engine และ Intel ร่วมกันเปิดตัวโซลูชันการประมวลผลล่วงหน้าวิดีโอการฝึกอบรมโมเดลขนาดใหญ่ที่การประชุม Video Cloud Technology Conference นักข่าวจาก Daily Economic News ได้เรียนรู้ในงานแถลงข่าวว่าโซลูชันทางเทคนิคนี้ได้ถูกนำไปใช้กับโมเดลการสร้างวิดีโอ bean bag แล้ว
ในงานแถลงข่าว Li Hang หัวหน้าฝ่ายวิจัย Bytedance เปิดเผยว่า PixelDance โมเดลการสร้างวิดีโอ Doubao ได้นำโซลูชันการประมวลผลล่วงหน้าวิดีโอการฝึกอบรมโมเดลขนาดใหญ่ของ Volcano Engine มาใช้ในระหว่างกระบวนการฝึกอบรม โดยใช้ประโยชน์จากทรัพยากรน้ำขึ้นน้ำลงจำนวนมากอย่างเต็มที่ และให้การสนับสนุนที่แข็งแกร่ง สำหรับการฝึกโมเดล
นอกจากนี้ Wang Yue หัวหน้าฝ่ายสถาปัตยกรรมวิดีโอของ Douyin Group ยังเปิดเผยความคืบหน้าล่าสุดของชิปตัวแปลงสัญญาณวิดีโอที่ Byte พัฒนาขึ้นเอง ซึ่งผ่านการตรวจสอบโดยหน่วยงานภายในของ Douyin Group แล้ว ชิปนี้ช่วยประหยัดค่าใช้จ่ายได้มากกว่า 95% ภายใต้การบีบอัดวิดีโอเดียวกัน ประสิทธิภาพ.
"ประการแรก ชุดข้อมูลการฝึกอบรมวิดีโอขนาดใหญ่พิเศษทำให้ต้นทุนการประมวลผลและการประมวลผลเพิ่มขึ้น" Wang Yue ชี้ให้เห็นว่าผู้ผลิตโมเดลรายใหญ่เผชิญกับความท้าทายมากมายในกระบวนการเตรียมการประมวลผล "ประการที่สอง วิดีโอ ข้อมูลตัวอย่างไม่สม่ำเสมอ และมีลิงก์การประมวลผลจำนวนมาก โปรเจ็กต์นี้ซับซ้อน และในที่สุดก็ต้องเผชิญกับการกำหนดเวลาและการปรับใช้ทรัพยากรการประมวลผลที่แตกต่างกันหลายอย่าง เช่น GPU, CPU และ ARM”
กรอบการประมวลผลมัลติมีเดียที่พัฒนาขึ้นเอง
ที่งาน Volcano Engine AI Innovation Tour เมื่อวันที่ 24 กันยายน ได้มีการเปิดตัวรุ่นสร้างวิดีโอบีนแบ็กขนาดใหญ่ 2 รุ่น ได้แก่ PixelDance และ Seaweed ซึ่งดึงดูดความสนใจของผู้คนทั้งภายในและภายนอกอุตสาหกรรม ที่จริงแล้ว ความพยายามของ ByteDance ในการสร้างโมเดลวิดีโอไม่ได้หยุดอยู่แค่นั้น
เมื่อวันที่ 15 ตุลาคม Volcano Engine ได้เปิดตัวโซลูชันการเตรียมการประมวลผลวิดีโอฝึกโมเดลขนาดใหญ่ ซึ่งมุ่งเน้นการแก้ปัญหาความท้าทายด้านเทคนิคในด้านต้นทุน คุณภาพ และประสิทธิภาพของการฝึกโมเดลขนาดใหญ่ด้วยวิดีโอ
ตามรายงาน วิดีโอการฝึกอบรมล่วงหน้าถือเป็นข้อกำหนดเบื้องต้นที่สำคัญเพื่อให้แน่ใจว่าผลของการฝึกอบรมโมเดลขนาดใหญ่ กระบวนการประมวลผลล่วงหน้าสามารถรวมรูปแบบข้อมูลของวิดีโอ ปรับปรุงคุณภาพข้อมูล สร้างมาตรฐานของข้อมูล ลดปริมาณข้อมูล และประมวลผลข้อมูลคำอธิบายประกอบ เพื่อให้โมเดลสามารถเรียนรู้คุณสมบัติและความรู้ในวิดีโอได้อย่างมีประสิทธิภาพมากขึ้น และปรับปรุงการฝึกอบรม ผลและประสิทธิภาพ
ในการฝึกอบรมโมเดลการสร้างวิดีโอ ค่าใช้จ่ายด้านพลังงานในการประมวลผลถือเป็นความท้าทายอันดับหนึ่งอย่างไม่ต้องสงสัย
วิศวกรอัลกอริทึมของโมเดลการสร้างวิดีโอในประเทศกล่าวในการให้สัมภาษณ์กับนักข่าวจาก "Daily Economic News" ว่าด้วยข้อมูลคุณภาพสูง โมเดลวิดีโอจะฝึกได้ยากกว่าโมเดลภาษาขนาดใหญ่ และต้องใช้พลังในการประมวลผลมากกว่า "ในปัจจุบัน โมเดลวิดีโอโอเพ่นซอร์สที่รู้จักนั้นมีขนาดไม่ใหญ่นัก สาเหตุหลักมาจากโมเดลวิดีโอจำนวนมากอยู่ในขั้นตอนที่พวกเขาไม่ทราบวิธีใช้ข้อมูล และไม่มีข้อมูลคุณภาพสูงมากนัก (สำหรับการฝึกอบรม)"
การวิจัยโดยนักวิทยาศาสตร์คอมพิวเตอร์ Matthias Plappert ยังแสดงให้เห็นว่าการฝึกอบรม Sora ต้องใช้พลังการประมวลผลมหาศาล ในกระบวนการฝึกอบรม จะใช้เวลาประมาณ 1 เดือนในการฝึกอบรมบน Nvidia H100 จำนวน 4,200 ถึง 10,500 เครื่อง ค่าใช้จ่ายจะเพิ่มขึ้นอย่างรวดเร็วนอกเหนือจากช่วงการฝึกอบรม
เพื่อที่จะแก้ปัญหาการลดต้นทุน Volcano Engine อาศัย CPU ของ Intel และทรัพยากรอื่นๆ เพื่อพึ่งพาโซลูชันการประมวลผลล่วงหน้าวิดีโอการฝึกอบรมโมเดลขนาดใหญ่บนเฟรมเวิร์กการประมวลผลมัลติมีเดียที่พัฒนาขึ้นเอง Wang Yue กล่าวว่าโซลูชันดังกล่าวยังได้รับการปรับให้เหมาะสมในแง่ของอัลกอริธึมและวิศวกรรม อีกทั้งยังสามารถประมวลผลข้อมูลวิดีโอขนาดใหญ่ล่วงหน้าคุณภาพสูง บรรลุการทำงานร่วมกันอย่างมีประสิทธิภาพในการประมวลผลลิงก์ในระยะเวลาอันสั้น และปรับปรุงประสิทธิภาพการฝึกโมเดล
ในส่วนของการใช้โซลูชันนี้ Li Hang เปิดเผยในงานแถลงข่าวว่า PixelDance รุ่นสร้างวิดีโอบีนแบ็กได้นำโซลูชันนี้ไปใช้ในระหว่างกระบวนการฝึกอบรม ในเวลาเดียวกัน โซลูชันตามความต้องการที่จัดทำโดยทีม Volcano Engine Video Cloud ยังให้บริการแบบครบวงจรสำหรับวงจรชีวิตของวิดีโอทั้งหมดที่ผลิตโดย PixelDance ตั้งแต่การแก้ไข การอัปโหลด การแปลงรหัส การจัดจำหน่าย และการเล่น เพื่อให้มั่นใจว่า การนำโมเดลไปประยุกต์ใช้ในเชิงพาณิชย์
นอกจากนี้ ในการประชุมครั้งนี้ Volcano Engine ยังได้เปิดตัวโซลูชันการถ่ายทอดสดข้ามภาษา โซลูชันการทำความเข้าใจและสร้างวิดีโอหลายรูปแบบ โซลูชันการโต้ตอบแบบเรียลไทม์ของ AI และ AIG3D และโซลูชันการสร้างฉากใหม่ขนาดใหญ่ สิ้นสุดการผลิตวิดีโอ ตั้งแต่ส่วนโต้ตอบไปจนถึงส่วนผู้บริโภค ลิงก์ทั้งหมดผสานรวมความสามารถด้าน AI
วิดีโอ AI มุ่งหน้าไปไหน?
AI กำลังปรับโฉมวิธีที่ผู้คนผลิต เผยแพร่ และรับข้อมูลในทุกด้าน หนึ่งในนั้นคือเทคโนโลยีวิดีโอใหม่ที่เกิดขึ้นได้นำผู้คนจากโลกข้อมูลที่ราบรื่นและมีความคมชัดสูงมาสู่โลก AI ที่มีประสบการณ์ที่ชาญฉลาดและมีการโต้ตอบมากขึ้น
ในเดือนกรกฎาคมของปีนี้ SenseTime ได้เปิดตัว Vimi ซึ่งเป็นโมเดลการสร้างวิดีโอตัวละครขนาดใหญ่ตัวแรกที่ควบคุมได้สำหรับผู้ใช้ C-end และในเดือนสิงหาคม MiniMax ได้เปิดตัวโมเดลการสร้างวิดีโอ video-1 และในเดือนกันยายน Keling AI ได้เสร็จสิ้นการทำซ้ำครั้งที่ 9 และเปิดตัว "KeLing 1.5 model", Alibaba Cloud ได้เปิดตัวโมเดลการสร้างวิดีโอใหม่ที่การประชุม Yunqi Conference และ Byte ยังได้ออกโมเดลการสร้างวิดีโออีก 2 รุ่นด้วย การกำเนิดและการทำซ้ำของผลิตภัณฑ์วิดีโอ AI เกือบใช้เวลาหลายเดือน
เกี่ยวกับ "การระเบิด" ของผลิตภัณฑ์วิดีโอ AI นั้น Wang Peng รองนักวิจัยจาก Beijing Academy of Social Sciences กล่าวในการให้สัมภาษณ์กับนักข่าวจาก "Daily Economic News" ว่าผลิตภัณฑ์วิดีโอ AI ในประเทศอยู่ในขั้นตอนของการพัฒนาอย่างรวดเร็วและ การทำซ้ำอย่างต่อเนื่องสาเหตุหลักมาจากความต้องการของตลาดที่แข็งแกร่งและสถานการณ์การใช้งานที่หลากหลายและรูปแบบการค้าที่หลากหลาย
ปัจจุบัน ผลิตภัณฑ์วิดีโอ AI ในตลาดส่วนใหญ่นำไปใช้ในด้านภาพยนตร์และโทรทัศน์ การตลาดอีคอมเมิร์ซ และสาขาอื่นๆ ตัวอย่างเช่น ในเดือนกรกฎาคมปีนี้ Jimeng AI และ Bona Pictures ร่วมมือกันเปิดตัว AIGC generative ต่อเนื่องแห่งแรกของประเทศ ซีรีส์เรื่องสั้นแนววิทยาศาสตร์เรื่อง "Sanxingdui: Future Enlightenment" "Record" ในเดือนกันยายนปีนี้ Kuaishou ร่วมมือกับผู้กำกับชื่อดัง 9 คน รวมถึง Jia Zhangke และ Li Shaohong เพื่อเปิดตัวโครงการร่วมสร้างผู้กำกับ "Keling AI"
Pan Helin สมาชิกของคณะกรรมการผู้เชี่ยวชาญด้านเศรษฐกิจสารสนเทศและการสื่อสารของกระทรวงอุตสาหกรรมและเทคโนโลยีสารสนเทศ ชี้ให้นักข่าวของ "Daily Economic News" ว่าผลิตภัณฑ์วิดีโอ AI บางอย่างอยู่ในขั้นตอนการแนะนำและยากที่จะเปิดตัว ในตลาดเนื่องจากเทคโนโลยีหรือการปฏิบัติตามกฎระเบียบ “ปัจจุบันรู้สึกว่าโอเพ่นซอร์ส (ผลิตภัณฑ์วิดีโอ AI) ได้รับความนิยมมากกว่าโอเพ่นซอร์สเนื่องจากต้นทุนในการสร้างวิดีโอ AI สูงและผู้ผลิตวิดีโอมักจะขาดเงินทุนจึงใช้โอเพ่นซอร์ส อัลกอริธึม AI ต้นทางที่ดาวน์โหลดไปยังเทอร์มินัลสามารถสร้างและสร้างวิดีโอได้ดีขึ้น"
ในมุมมองของเขา ผลิตภัณฑ์วิดีโอ AI ในขั้นตอนนี้ส่วนใหญ่มีอุปสรรค 2 ประการ ได้แก่ พลังการประมวลผลและความเสี่ยงในการปฏิบัติตามข้อกำหนด "อัลกอริธึม พลังการประมวลผล และข้อมูล ล้วนต้องการให้องค์กรลงทุนทรัพยากรและเวลามากขึ้น ปัญหาอีกประการหนึ่งอยู่ที่ความเสี่ยงในการปฏิบัติตามกฎระเบียบ ทุกวันนี้ ให้ความสำคัญกับความเป็นส่วนตัวมากขึ้นเรื่อยๆ การปฏิบัติตามข้อกำหนดเป็นหัวข้อที่หลีกเลี่ยงไม่ได้ และวิดีโอ AI ในบางครั้งอาจเป็น การบุกรุกความเป็นส่วนตัว ความเป็นส่วนตัว” เขาอธิบาย
นอกจากนี้ Chen Chen พันธมิตรด้านการวิจัยการวิเคราะห์ของ Analysys ยังแสดงความกังวลเกี่ยวกับความสามารถในการสร้างรายได้ในระยะสั้นของโมเดลการสร้างวิดีโอขนาดใหญ่ในการให้สัมภาษณ์กับนักข่าวจาก "Daily Economic News" "เนื่องจากการฝึกอบรมโมเดลที่สูงและการอนุมานของ AI ขนาดใหญ่ ประกอบกับความต้องการเครื่องมือ AI ของผู้ใช้ฝั่ง C นั้นค่อนข้างกระจัดกระจาย และความเต็มใจที่จะจ่ายเงินของพวกเขายังไม่เพียงพอ การทำตลาดโมเดลวิดีโอขนาดใหญ่ในเชิงพาณิชย์ในตลาด C-end จะยังคงต้องเผชิญกับระยะเวลาการฝึกฝนที่ยาวนาน"
ยุคของวิดีโอ AI มาถึงแล้ว แต่วิธีการลดต้นทุน เพิ่มประสิทธิภาพ และเอาชนะตลาดได้มากขึ้น จะกลายเป็นประเด็นสำคัญที่บริษัทอินเทอร์เน็ตและบริษัทเทคโนโลยีรายใหญ่ต้องเผชิญ