Doubao: โมเดลการสร้างวิดีโอ "VideoWorld" เป็นโอเพ่นซอร์สเพื่อตระหนักถึงการเรียนรู้ด้วยภาพที่บริสุทธิ์ - บทความ AI

ผู้เขียน：Eve Cole เวลาอัปเดต：2025-02-14 16:16:02

ตามบัญชีอย่างเป็นทางการของทีมงาน Doubao Big Model ภายใต้การวิจัยร่วมกันของมหาวิทยาลัยกรุงปักกิ่ง Jiaotong และมหาวิทยาลัยวิทยาศาสตร์และเทคโนโลยีของจีนรูปแบบการทดลองวิดีโอการสร้างวิดีโอ "Videoworld" ที่เสนอโดย Doubao Big Model Team ได้เปิดอย่างเป็นทางการเมื่อเร็ว ๆ นี้

ไฮไลต์ที่ใหญ่ที่สุดของรุ่นนี้คือมันไม่ได้ขึ้นอยู่กับโมเดลภาษาแบบดั้งเดิมอีกต่อไป แต่สามารถรับรู้และเข้าใจโลกได้จากข้อมูลภาพเพียงอย่างเดียว การวิจัยที่ก้าวหน้าครั้งนี้ได้รับแรงบันดาลใจจากแนวคิดของศาสตราจารย์ลี่เฟียฟีว่า "เด็กเล็กสามารถเข้าใจโลกแห่งความจริงโดยไม่ต้องพึ่งพาภาษา" ที่กล่าวถึงในคำพูดของเขา

"VideoWorld" ตระหนักถึงความสามารถในการอนุมานการวางแผนและการตัดสินใจที่ซับซ้อนโดยการวิเคราะห์และประมวลผลข้อมูลวิดีโอจำนวนมาก การทดลองของทีมวิจัยแสดงให้เห็นว่าแบบจำลองได้ผลลัพธ์ที่สำคัญด้วยพารามิเตอร์เพียง 300 ม. ซึ่งแตกต่างจากโมเดลที่มีอยู่ซึ่งพึ่งพาข้อมูลภาษาหรือแท็กวิดีโอสามารถเรียนรู้ความรู้ได้อย่างอิสระโดยเฉพาะอย่างยิ่งในงานที่ซับซ้อนเช่น Origami และ Bow Ties ซึ่งสามารถให้วิธีการเรียนรู้ที่ใช้งานง่ายมากขึ้น

เพื่อตรวจสอบประสิทธิภาพของโมเดลนี้ทีมวิจัยได้จัดตั้งสภาพแวดล้อมการทดลองสองอย่าง: GO Battle และการควบคุมการจำลองหุ่นยนต์ ในฐานะที่เป็นเกมที่มีกลยุทธ์สูง GO สามารถประเมินการเรียนรู้กฎและความสามารถในการใช้เหตุผลของแบบจำลองได้อย่างมีประสิทธิภาพในขณะที่งานหุ่นยนต์ตรวจสอบประสิทธิภาพของโมเดลในการควบคุมและการวางแผน ในระหว่างขั้นตอนการฝึกอบรมแบบจำลองจะค่อยๆสร้างความสามารถในการทำนายภาพในอนาคตโดยดูข้อมูลการสาธิตวิดีโอจำนวนมาก

เพื่อปรับปรุงประสิทธิภาพของการเรียนรู้วิดีโอทีมได้แนะนำโมเดลไดนามิกที่มีศักยภาพ (LDM) ที่ออกแบบมาเพื่อบีบอัดการเปลี่ยนแปลงภาพระหว่างเฟรมวิดีโอเพื่อแยกข้อมูลที่สำคัญ วิธีนี้ไม่เพียง แต่ช่วยลดข้อมูลที่ซ้ำซ้อน แต่ยังช่วยเพิ่มประสิทธิภาพการเรียนรู้ของแบบจำลองของความรู้ที่ซับซ้อน ด้วยนวัตกรรมนี้ VideoWorld แสดงให้เห็นถึงความสามารถที่โดดเด่นในงาน GO และหุ่นยนต์และถึงระดับของการเดินทางห้าขั้นตอนระดับมืออาชีพ

ลิงค์กระดาษ: https://arxiv.org/abs/2501.09781

ลิงค์รหัส: https://github.com/bytedance/videoworld

หน้าแรกของโครงการ: https://maverickren.github.io/videoworld.github.io

ประเด็นสำคัญ:

โมเดล "VideoWorld" สามารถตระหนักถึงการเรียนรู้ความรู้โดยใช้ข้อมูลภาพเพียงอย่างเดียวและไม่พึ่งพาแบบจำลองภาษา

แบบจำลองนี้แสดงให้เห็นถึงความสามารถในการใช้เหตุผลและการวางแผนที่ยอดเยี่ยมในงานจำลอง GO และหุ่นยนต์

รหัสโครงการและรูปแบบได้รับการเปิดแหล่งที่มาและผู้คนจากทุกสาขาอาชีพยินดีที่จะเข้าร่วมในประสบการณ์และการแลกเปลี่ยน