ByteDance, Kuaishou Video AI การเผชิญหน้าแบบตัวต่อตัว: มีความแตกต่างในการทำความเข้าใจ การจับ และจินตนาการ

ผู้เขียน：Eve Cole เวลาอัปเดต：2025-02-09 23:48:02

ByteDance และ Kuaishou สองยักษ์ใหญ่ด้านวิดีโอสั้นกำลังเผชิญหน้ากันแบบตัวต่อตัวในด้าน AI

เมื่อวันที่ 8 พฤศจิกายน Dream AI ซึ่งเป็นแพลตฟอร์มเนื้อหา AI ที่ ByteDance เป็นเจ้าของได้ประกาศว่า Seaweed ซึ่งเป็นโมเดลการสร้างวิดีโอที่พัฒนาโดย ByteDance ได้เปิดให้ผู้ใช้แพลตฟอร์มอย่างเป็นทางการแล้ว จากข้อมูลของ ByteDance โมเดลการสร้างวิดีโอ beanbag Seaweed ที่เปิดให้ใช้งานในครั้งนี้เป็นเวอร์ชันมาตรฐานของรุ่นนี้ ใช้เวลาเพียง 60 วินาทีในการสร้างวิดีโอ AI คุณภาพสูงในเวลา 5 วินาที ซึ่งเร็วกว่า 3 ถึง 5 นาที มาตรฐานอุตสาหกรรมภายในประเทศทั้งหมดต้องใช้เวลาในการสร้าง

ผู้สื่อข่าว "Daily Economic News" ได้ทำการทดสอบจริงกับ Jimeng และ Keling เวอร์ชันแรกและล่าสุด และพบว่าหลังจากการทำซ้ำ เอฟเฟกต์การสร้างวิดีโอของผลิตภัณฑ์ทั้งสองได้รับการปรับปรุงในหลาย ๆ ด้าน และในระดับที่แตกต่างกันไป รายละเอียดเค้าโครงและรูปภาพมีความแม่นยำมากขึ้นและการปรับเอฟเฟกต์เนื้อหาที่สร้างขึ้นนั้นมีความยืดหยุ่นและสะดวกยิ่งขึ้น Jimeng มีข้อได้เปรียบในด้านเวลาในการสร้างและสไตล์วิดีโอ

วิชวลไชน่า

ช่างเทคนิครุ่นใหญ่รายหนึ่งกล่าวกับผู้สื่อข่าวว่าเป็นเรื่องยากสำหรับโมเดลการสร้างวิดีโอเพื่อให้ได้ "สไตล์" ของเนื้อหาการผลิตที่แตกต่างกัน "นอกเหนือจากเทคโนโลยีแล้ว ยังขึ้นอยู่กับความสมบูรณ์ของแหล่งข้อมูลเป็นหลัก"

ทำซ้ำหลายครั้งให้เสร็จสิ้นภายในระยะเวลาอันสั้น

ด้วยการเปิดตัว Seaweed โมเดลการสร้างวิดีโอที่ ByteDance พัฒนาขึ้นเอง คู่ที่น่าสนใจที่สุดในการแข่งขันโมเดลการสร้างวิดีโอในประเทศ ในที่สุด Ji Meng และ Ke Ling ก็แข่งขันกันอย่างเป็นทางการ

พวกเขาทั้งสองมี "แผนสร้างความฝันของ AI" ในการทำความเข้าใจโลกทางกายภาพและขยายจินตนาการให้มากที่สุดเท่าที่จะเป็นไปได้ในขณะที่ได้รับ "ความเป็นจริง" แต่สำหรับตัวพวกเขาเองแล้ว Ji Meng และ Ke Ling ก็แบกรับความรับผิดชอบของ ByteDance และ Kuaishou ด้วยเช่นกัน

ในความเป็นจริง ทั้ง Jimeng และ Keling ทำซ้ำหลายครั้งในเวลาไม่ถึงหนึ่งปี Jimeng เริ่มการทดสอบฟังก์ชันการสร้างวิดีโอภายในเมื่อปลายเดือนมีนาคม ครึ่งปีต่อมา ByteDance ได้เปิดตัวโมเดลการสร้างวิดีโอสองรุ่นของตระกูล Doubao นั่นคือ Seaweed และ Pixeldance และเชิญการทดสอบขนาดเล็กผ่าน Jimeng AI และ Volcano Engine Now Seaweed เปิดให้ผู้ใช้แพลตฟอร์ม เปิดอย่างเป็นทางการ

Pan Helin สมาชิกของคณะกรรมการผู้เชี่ยวชาญด้านเศรษฐกิจสารสนเทศและการสื่อสารของกระทรวงอุตสาหกรรมและเทคโนโลยีสารสนเทศกล่าวกับนักข่าวของ "Daily Economic News" ว่าความเร็วในการสร้างโมเดลใหม่ที่ Jimeng ใช้ได้รับการปรับปรุงให้ดีขึ้น ทำให้ผู้ใช้ได้รับประสบการณ์ที่ดีขึ้น ประสบการณ์การสร้าง "ปัจจุบัน Jimeng AI อยู่ในสาขาการสร้างในประเทศ ยังคงค่อนข้างเป็นผู้นำ"

Keling กลายเป็นหนังดังหลังจาก "กำเนิด" ในเดือนมิถุนายน นับตั้งแต่เปิดตัว ก็ได้รับการอัปเดตมากกว่า 10 รายการ รวมถึงการเปิดตัวฟังก์ชันวิดีโอ Tusheng และการเปิดตัวรุ่น 1.5 ณ ขณะนี้ Keling มีผู้ใช้มากกว่า 3.6 ล้านคน ได้สร้างวิดีโอทั้งหมด 37 ล้านรายการ และจะเปิดตัวแอปอิสระ (ซอฟต์แวร์แอปพลิเคชัน) อย่างเป็นทางการในอนาคตอันใกล้นี้

นักข่าว "Daily Economic News" เลือกคำในวิดีโอโซระ 5 คำที่ OpenAI ประกาศอย่างเป็นทางการ (ผู้หญิงบนถนนในโตเกียว นักบินอวกาศ ชายฝั่งจากมุมมองของโดรน สัตว์ประหลาดตัวน้อยแบบเคลื่อนไหว 3 มิติ ชายหนุ่มกำลังอ่านอยู่ในคลาวด์) และทดสอบแยกกัน Menghe Keling เวอร์ชันแรกและเวอร์ชันล่าสุดจะเปรียบเทียบเอฟเฟ็กต์วิดีโอของรุ่นสร้างวิดีโอทั้งสองในแนวตั้ง

หลังจากเปรียบเทียบเอฟเฟ็กต์วิดีโอที่สร้างโดยเวอร์ชันดั้งเดิมของ Jimeng และเวอร์ชันล่าสุดแล้ว นักข่าวพบว่าการอัปเดตของ Jimeng มีสองส่วนที่ชัดเจนกว่า: ประการแรกคือในประสิทธิภาพของ "ผู้คนและสิ่งของ" แบบไดนามิก การจับภาพและการเชื่อมโยงกันของ การเคลื่อนไหวได้รับการปรับปรุงอย่างมีนัยสำคัญ อีกอย่างคือการนำเสนอรูปแบบภาพที่แตกต่างก็มีความก้าวหน้าอย่างมากเช่นกัน

ยกตัวอย่าง "Lady on the Streets of Tokyo" การเคลื่อนไหวของตัวละครที่สร้างขึ้นโดย Yume รุ่นแรกมีความแข็ง โดยเฉพาะการจับการเคลื่อนไหวของขาและเท้า และเอฟเฟกต์โดยรวมก็เบลอและบิดเบี้ยว เวอร์ชันใหม่ของ Ji Meng ที่ได้รับการทำซ้ำมีการเคลื่อนไหวของตัวละครที่เป็นธรรมชาติและราบรื่น และการประมวลผลไดนามิกของเท้าโดยละเอียดนั้นชัดเจนยิ่งขึ้นและสอดคล้องกับตรรกะของโลกแห่งความเป็นจริงมากขึ้น

มีความแตกต่างที่ชัดเจนระหว่างความฝันและจิตวิญญาณ

หลังจากทำซ้ำทั้งสองรุ่น เอฟเฟกต์ที่สร้างขึ้นจะมีเสถียรภาพมากขึ้น คุณภาพของภาพดีขึ้น และความราบรื่นและการประมวลผลรายละเอียดสามารถทนต่อการตรวจสอบอย่างละเอียดได้มากขึ้น อย่างไรก็ตาม ยังคงมีความแตกต่างที่ชัดเจนในความเข้าใจเชิงความหมาย การจับภาพและการขยายคำหลัก และความสมดุลระหว่างจินตนาการที่สร้างสรรค์และความเกี่ยวข้องที่สร้างสรรค์

การเปรียบเทียบแนวนอน เปรียบเทียบ Jimeng เวอร์ชันล่าสุดและ Keling รุ่น 1.5 เพื่อเปรียบเทียบการนำเสนอคำพร้อมท์วิดีโอ Sora 5 คำ ความเข้าใจในความหมายและการจับคำหลักทำให้การนำเสนอวิดีโอของ Jimeng และ Keling แตกต่างออกไป

ในวิดีโอ "ชายฝั่งจากมุมมองของโดรน" จีเหมิงค่อนข้างเบลอ "เกาะที่มีประภาคาร" ในข้อความที่พร้อมท์ และไม่ว่าจะเป็น Ke Ling หรือ Sora จุดเน้นของฉากนี้คือ " เกาะ" ในคำอธิบายของ "Coast Highway" ฉากความฝันไม่สอดคล้องกับตรรกะของโลกแห่งความเป็นจริง

ในเอฟเฟกต์วิดีโอของ "นักบินอวกาศ" จีเหมิงไม่ได้อธิบาย "การผจญภัย" ในคำอธิบาย หลังจากการฟื้นฟู นักบินอวกาศถือกาแฟและขี่มอเตอร์ไซค์ก็ไม่สนใจฉาก "การผจญภัย" เช่นกัน Ke Ling เน้นย้ำถึง "การผจญภัย" ผ่านการแสดงออกของตัวละครและการเคลื่อนไหวของกล้อง อย่างไรก็ตาม ทั้งจีเหมิงและเค่อหลิงค่อนข้างเพิกเฉยต่อฉาก "ตัวอย่างภาพยนตร์" ในทางตรงกันข้าม วิดีโอ "นักบินอวกาศ" ของโซระให้ความรู้สึกแบบภาพยนตร์มากกว่า

ในการสร้างวิดีโอ "สัตว์ประหลาดตัวน้อยแบบเคลื่อนไหว 3 มิติ" ฉากของสัตว์ประหลาดตัวน้อยของจีเหมิงเกือบจะเหมือนกับตัวละคร "แซลลี่" ในภาพยนตร์แอนิเมชั่นเรื่อง "Monsters, Inc." คำอธิบายของสัตว์ประหลาดตัวน้อยในคำที่ปรากฏขึ้นซึ่งก็คือการนำเสนอความฝันนั้นค่อนข้างไม่ถูกต้องเช่นกัน เช่น การดำเนินการตามการตั้งค่า "ผมสั้น" นอกจากนี้ในแง่ของการนำเสนอสไตล์ศิลปะ คำที่เน้นย้ำว่า "แสงและพื้นผิว" นั่นคือการทำตามความฝันนั้นอ่อนแอกว่าของ Ke Ling

ในวิดีโอ "Lady on the Streets of Tokyo" การแสดงของ Ji Meng ในการนำเสนอปฏิสัมพันธ์ที่ซับซ้อนหลายวิชานั้นทำได้แย่เมื่อเทียบกับของ Ke Ling ทั้ง "ผู้หญิง" ที่เป็นเป้าหมายของภาพและคำอธิบายของพื้นที่นั้นค่อนข้างแม่นยำ แต่โดยทั่วไปแล้วคนเดินถนนในภาพจะเบลอ และคนเดินถนนในระยะใกล้จะบิดเบี้ยว

อย่างไรก็ตาม Jimeng AI เปิดเผยอย่างเป็นทางการว่ารุ่น Pro ของรุ่นสร้างวิดีโอ Seaweed และ Pixeldance จะพร้อมใช้งานในอนาคตอันใกล้นี้ รุ่น Pro จะเพิ่มประสิทธิภาพการโต้ตอบหลายวัตถุและการเชื่อมโยงกันของการถ่ายภาพหลายภาพ ขณะเดียวกันก็เอาชนะปัญหาต่างๆ เช่น ความสม่ำเสมอของการสลับภาพหลายภาพ

ในแง่ของฟังก์ชันและประสบการณ์ หลังจากทำซ้ำหลายรอบ Keling ได้ปรับเปลี่ยนพารามิเตอร์ "จินตนาการเชิงสร้างสรรค์และความเกี่ยวข้องเชิงสร้างสรรค์" เมื่อสร้างวิดีโอ ดังนั้นจึงสามารถปรับสมดุลได้ Ke Ling ยังสามารถตั้งค่าเนื้อหาที่คุณไม่ต้องการนำเสนอ เช่น การเบลอ ภาพต่อกัน การแปลงร่าง แอนิเมชั่น ฯลฯ การดำเนินการสร้างมีความยืดหยุ่นมากขึ้นและสามารถปรับเอฟเฟกต์ได้

หลังจากการทดสอบ เวลาในการสร้างวิดีโอในฝันจะสั้นลง ระยะเวลาการสร้างวิดีโอของคำพร้อมท์ทั้ง 5 ของโซระนั้นไม่เกินครึ่งนาทีต่อคำ อย่างไรก็ตาม จะใช้เวลามากกว่า 10 นาทีในการสร้างวิดีโอคุณภาพสูงความยาว 10 วินาทีด้วยรุ่น 1.5

ควรสังเกตว่าวิดีโอที่กล่าวถึงข้างต้นที่สร้างโดย Jimeng และ Keling ได้รับการทดสอบและสร้างโดยนักข่าว เวอร์ชันและคำอธิบายที่แตกต่างกันจะทำให้เกิดความแตกต่างในเอฟเฟกต์การสร้างวิดีโอ

การต่อสู้ในด้านการสร้างวิดีโอ AI

สำหรับสองยักษ์ใหญ่ด้านวิดีโอสั้นอย่าง ByteDance และ Kuaishou ฝ่ายตรงข้ามในด้านการสร้างวิดีโอ AI นั้นมีความเป็นมากกว่ากันและกันมาก

ตัวอย่างเช่น เมื่อวันที่ 8 พฤศจิกายน Zhipu หนึ่งใน “มังกรน้อยทั้งหกแห่ง AI” ได้อัปเกรดเครื่องมือสร้างวิดีโอ Qingying Qingying ที่อัปเกรดแล้วรองรับการสร้างวิดีโอจากรูปภาพทุกสัดส่วน และมีความสามารถในการสร้างหลายช่องสัญญาณ คำสั่งหรือรูปภาพเดียวกันสามารถสร้างวิดีโอได้ 4 รายการในคราวเดียว นอกจากนี้ Qingying ยังสามารถสร้างเอฟเฟกต์เสียงที่เข้ากับภาพได้อีกด้วย ฟังก์ชันเอฟเฟกต์เสียงนี้จะเปิดตัวในรุ่นเบต้าสาธารณะในเดือนนี้

ก่อนหน้านี้ในวันที่ 31 สิงหาคม MiniMax ได้เปิดตัวเทคโนโลยีโมเดลการสร้างวิดีโอความละเอียดสูง AI ตัวแรกของบริษัท abab-video-1 ซึ่งได้รับการรายงานบ่อยครั้งในเดือนแรกของการเปิดตัว ตามบัญชีสาธารณะอย่างเป็นทางการของ MiniMax ในเดือนแรกหลังจากเปิดตัวโมเดลวิดีโอบน Conch AI จำนวนการเข้าชมเวอร์ชันเว็บของ Conch AI เพิ่มขึ้นมากกว่า 800% ผู้ใช้ครอบคลุมมากกว่า 180 ประเทศและภูมิภาคทั่วโลก และ สินค้าติดอันดับ 1 ในรายการผลิตภัณฑ์ AI (เว็บ) ในเดือนกันยายน โดยติดอันดับ 1 ในรายการอัตราการเติบโตทั่วโลกและรายการอัตราการเติบโตในประเทศ

Wang Peng ผู้ร่วมวิจัยจาก Institute of Management of the Beijing Academy of Social Sciences ชี้ให้เห็นกับนักข่าว "Daily Economic News" ว่าผลิตภัณฑ์วิดีโอ AI ทั้งในและต่างประเทศกำลังอยู่ในขั้นตอนของการพัฒนาอย่างรวดเร็วและเทคโนโลยีจากต่างประเทศ บริษัทยักษ์ใหญ่อย่าง Meta และ Google กำลังใช้งานวิดีโอ AI ในประเทศอย่างกระตือรือร้น Kuaishou Keling, Jimeng AI และผลิตภัณฑ์อื่น ๆ ก็ได้รับการอัปเกรดอย่างต่อเนื่องเพื่อปรับปรุงประสบการณ์ผู้ใช้และขีดความสามารถเชิงพาณิชย์

ในแง่ของความเป็นไปได้ในเชิงพาณิชย์ รายงานการวิจัยที่เผยแพร่โดย Soochow Securities ในเดือนสิงหาคมปีนี้ ระบุว่าภายใต้สมมติฐานที่เป็นกลางของอัตราการเจาะระบบ AI ที่ 15% พื้นที่ที่มีศักยภาพสำหรับอุตสาหกรรมการสร้างวิดีโอ AI ของจีนอยู่ที่ 317.8 พันล้านหยวน ภายใต้โมเดลนี้ ต้นทุนการผลิตภาพยนตร์ ละครยาว การ์ตูน และละครสั้นจะลดลงมากกว่า 95% เมื่อเทียบกับรุ่นดั้งเดิม

ขนาดตลาดที่มีศักยภาพมหาศาลและ "พลังพิเศษ" ในการลดต้นทุนและเพิ่มประสิทธิภาพสามารถดูได้จากข้อมูลการใช้งานของ Keling

ที่งาน "2024 China Computer Conference" ซึ่งจัดขึ้นในเดือนตุลาคม จางตี้ รองประธานของ Kuaishou และหัวหน้าทีมโมเดลขนาดใหญ่ เปิดเผยว่านับตั้งแต่เปิดตัวในเดือนมิถุนายนปีนี้ Kuaishou Keling AI มีผู้ใช้มากกว่า 3.6 ล้านคน และได้สร้าง วิดีโอทั้งหมด 37 ล้านรายการและรูปภาพมากกว่า 100 ล้านภาพ

Pan Helin กล่าวในการให้สัมภาษณ์กับนักข่าวจาก Daily Economic News ว่า Keling ได้รับการสนับสนุนจาก Kuaishou และรองรับการรับส่งข้อมูล ดังนั้นกระบวนการเชิงพาณิชย์จึงรวดเร็วมาก "ผลิตภัณฑ์วิดีโอ AI ยังคงต้องได้รับการสนับสนุนจากแพลตฟอร์มอินเทอร์เน็ต เฉพาะกับ การจราจรจึงสามารถมีศักยภาพทางการค้าได้" ".

ในทำนองเดียวกัน ByteDance ยังได้วางโมเดลวิดีโอเชิงพาณิชย์ไว้ที่แถวหน้าของรายการงานด้วย เมื่อมีการเปิดตัวโมเดลการสร้างวิดีโอสองรุ่นในเดือนกันยายนปีนี้ Tan Dai ประธานของ Volcano Engine เปิดเผยต่อสาธารณะว่าโมเดลการสร้างวิดีโอ beanbag ใหม่ "กำลังพิจารณาที่จะนำไปใช้ในเชิงพาณิชย์นับตั้งแต่เปิดตัว" ขอบเขตการใช้งาน ได้แก่ การตลาดอีคอมเมิร์ซ และแอนิเมชั่น การศึกษาและการท่องเที่ยววัฒนธรรมเมืองและไมโครสคริปต์

"วิดีโอ AI จะแสดงศักยภาพเชิงพาณิชย์ที่แตกต่างกันในฝั่ง B และฝั่ง C" Wang Peng เชื่อว่าสำหรับฝั่ง B นั้น วิดีโอ AI สามารถช่วยให้องค์กรต่างๆ ได้รับโซลูชันการผลิตและจัดจำหน่ายวิดีโอที่มีประสิทธิภาพและต้นทุนต่ำยิ่งขึ้น -ด้านข้าง วิดีโอ AI สามารถตอบสนองความต้องการของผู้ใช้ในด้านเนื้อหาวิดีโอคุณภาพสูงเฉพาะบุคคล และยังสามารถใช้ร่วมกับอีคอมเมิร์ซ การโฆษณา และอุตสาหกรรมอื่นๆ เพื่อให้บรรลุการตลาดและการสร้างรายได้ที่แม่นยำยิ่งขึ้น