ตามบัญชีอย่างเป็นทางการของทีมงาน Doubao Big Model ภายใต้การวิจัยร่วมกันของมหาวิทยาลัยกรุงปักกิ่ง Jiaotong และมหาวิทยาลัยวิทยาศาสตร์และเทคโนโลยีของจีนรูปแบบการทดลองวิดีโอการสร้างวิดีโอ "Videoworld" ที่เสนอโดย Doubao Big Model Team ได้เปิดอย่างเป็นทางการเมื่อเร็ว ๆ นี้
ไฮไลต์ที่ใหญ่ที่สุดของรุ่นนี้คือมันไม่ได้ขึ้นอยู่กับโมเดลภาษาแบบดั้งเดิมอีกต่อไป แต่สามารถรับรู้และเข้าใจโลกได้จากข้อมูลภาพเพียงอย่างเดียว การวิจัยที่ก้าวหน้าครั้งนี้ได้รับแรงบันดาลใจจากแนวคิดของศาสตราจารย์ลี่เฟียฟีว่า "เด็กเล็กสามารถเข้าใจโลกแห่งความจริงโดยไม่ต้องพึ่งพาภาษา" ที่กล่าวถึงในคำพูดของเขา
"VideoWorld" ตระหนักถึงความสามารถในการอนุมานการวางแผนและการตัดสินใจที่ซับซ้อนโดยการวิเคราะห์และประมวลผลข้อมูลวิดีโอจำนวนมาก การทดลองของทีมวิจัยแสดงให้เห็นว่าแบบจำลองได้ผลลัพธ์ที่สำคัญด้วยพารามิเตอร์เพียง 300 ม. ซึ่งแตกต่างจากโมเดลที่มีอยู่ซึ่งพึ่งพาข้อมูลภาษาหรือแท็กวิดีโอสามารถเรียนรู้ความรู้ได้อย่างอิสระโดยเฉพาะอย่างยิ่งในงานที่ซับซ้อนเช่น Origami และ Bow Ties ซึ่งสามารถให้วิธีการเรียนรู้ที่ใช้งานง่ายมากขึ้น
เพื่อตรวจสอบประสิทธิภาพของโมเดลนี้ทีมวิจัยได้จัดตั้งสภาพแวดล้อมการทดลองสองอย่าง: GO Battle และการควบคุมการจำลองหุ่นยนต์ ในฐานะที่เป็นเกมที่มีกลยุทธ์สูง GO สามารถประเมินการเรียนรู้กฎและความสามารถในการใช้เหตุผลของแบบจำลองได้อย่างมีประสิทธิภาพในขณะที่งานหุ่นยนต์ตรวจสอบประสิทธิภาพของโมเดลในการควบคุมและการวางแผน ในระหว่างขั้นตอนการฝึกอบรมแบบจำลองจะค่อยๆสร้างความสามารถในการทำนายภาพในอนาคตโดยดูข้อมูลการสาธิตวิดีโอจำนวนมาก
เพื่อปรับปรุงประสิทธิภาพของการเรียนรู้วิดีโอทีมได้แนะนำโมเดลไดนามิกที่มีศักยภาพ (LDM) ที่ออกแบบมาเพื่อบีบอัดการเปลี่ยนแปลงภาพระหว่างเฟรมวิดีโอเพื่อแยกข้อมูลที่สำคัญ วิธีนี้ไม่เพียง แต่ช่วยลดข้อมูลที่ซ้ำซ้อน แต่ยังช่วยเพิ่มประสิทธิภาพการเรียนรู้ของแบบจำลองของความรู้ที่ซับซ้อน ด้วยนวัตกรรมนี้ VideoWorld แสดงให้เห็นถึงความสามารถที่โดดเด่นในงาน GO และหุ่นยนต์และถึงระดับของการเดินทางห้าขั้นตอนระดับมืออาชีพ
ลิงค์กระดาษ: https://arxiv.org/abs/2501.09781
ลิงค์รหัส: https://github.com/bytedance/videoworld
หน้าแรกของโครงการ: https://maverickren.github.io/videoworld.github.io
ประเด็นสำคัญ:
โมเดล "VideoWorld" สามารถตระหนักถึงการเรียนรู้ความรู้โดยใช้ข้อมูลภาพเพียงอย่างเดียวและไม่พึ่งพาแบบจำลองภาษา
แบบจำลองนี้แสดงให้เห็นถึงความสามารถในการใช้เหตุผลและการวางแผนที่ยอดเยี่ยมในงานจำลอง GO และหุ่นยนต์
รหัสโครงการและรูปแบบได้รับการเปิดแหล่งที่มาและผู้คนจากทุกสาขาอาชีพยินดีที่จะเข้าร่วมในประสบการณ์และการแลกเปลี่ยน