บรรณาธิการของ Downcodes ได้เรียนรู้ว่านักวิจัยจาก ByteDance Research Institute และ Tsinghua University เพิ่งเผยแพร่การศึกษาที่เปิดเผยข้อบกพร่องที่สำคัญในโมเดลการสร้างวิดีโอ AI ในปัจจุบัน เช่น Sora ของ OpenAI ในการทำความเข้าใจกฎทางกายภาพ การศึกษาเจาะลึกประสิทธิภาพของโมเดลเหล่านี้ในสถานการณ์ต่างๆ ผ่านการทดสอบต่างๆ และวิเคราะห์กลไกที่อยู่เบื้องหลัง ผลการวิจัยเตือนถึงข้อจำกัดของเทคโนโลยีการสร้างวิดีโอ AI ในปัจจุบัน ซึ่งกระตุ้นให้เกิดความคิดอย่างกว้างขวางในอุตสาหกรรมเกี่ยวกับความสามารถของ AI ในการจำลองความเป็นจริง
ทีมวิจัยได้ทดสอบโมเดลการสร้างวิดีโอ AI และตั้งค่าสถานการณ์ที่แตกต่างกัน 3 แบบ ได้แก่ การทำนายภายใต้โหมดที่รู้จัก การทำนายภายใต้โหมดที่ไม่รู้จัก และการผสมผสานองค์ประกอบใหม่ที่คุ้นเคย เป้าหมายของพวกเขาคือการดูว่าแบบจำลองเหล่านี้เรียนรู้กฎแห่งฟิสิกส์จริง ๆ หรือเพียงแค่อาศัยคุณสมบัติพื้นผิวในการฝึกฝน
ผ่านการทดสอบ นักวิจัยพบว่าโมเดล AI เหล่านี้ไม่ได้เรียนรู้กฎที่บังคับใช้ในระดับสากล แต่ส่วนใหญ่จะอาศัยคุณสมบัติพื้นผิว เช่น สี ขนาด ความเร็ว และรูปร่างเมื่อสร้างวิดีโอ และปฏิบัติตามลำดับความสำคัญที่เข้มงวด: สีมาก่อน ตามด้วยขนาด ความเร็ว และรูปร่าง
โมเดลเหล่านี้ทำงานได้เกือบจะสมบูรณ์แบบในสถานการณ์ที่คุ้นเคย แต่ไม่สามารถทำได้เมื่อพบกับสถานการณ์ที่ไม่รู้จัก การทดสอบในการศึกษานี้แสดงให้เห็นถึงข้อจำกัดของแบบจำลอง AI เมื่อต้องรับมือกับการเคลื่อนไหวของวัตถุ ตัวอย่างเช่น เมื่อจำลองแบบจำลองด้วยทรงกลมที่เคลื่อนที่เร็วซึ่งเคลื่อนที่ไปมา แต่เมื่อทดสอบด้วยทรงกลมที่เคลื่อนที่ช้า แบบจำลองก็แสดงให้เห็นว่าทรงกลมเปลี่ยนทิศทางกะทันหันหลังจากผ่านไปสองสามเฟรม ปรากฏการณ์นี้ยังสะท้อนให้เห็นอย่างชัดเจนในวิดีโอที่เกี่ยวข้อง
นักวิจัยชี้ให้เห็นว่าการขยายขนาดโมเดลหรือเพิ่มข้อมูลการฝึกอบรมไม่สามารถแก้ปัญหาได้ แม้ว่าโมเดลขนาดใหญ่จะทำงานได้ดีกว่าด้วยรูปแบบและการรวมกันที่คุ้นเคย แต่ก็ยังไม่สามารถเข้าใจฟิสิกส์พื้นฐานหรือจัดการกับสถานการณ์ที่อยู่นอกเหนือขอบเขตการฝึกฝนได้ ผู้เขียนร่วมการศึกษา Kang Bingyi กล่าวว่า "หากความครอบคลุมของข้อมูลดีเพียงพอในสถานการณ์เฉพาะ แบบจำลองโลกที่เกินพอดีก็อาจเกิดขึ้นได้" แต่แบบจำลองนี้ไม่ตรงตามคำจำกัดความของแบบจำลองในโลกแห่งความเป็นจริง เพราะแบบจำลองในโลกแห่งความเป็นจริงควรเป็นเช่นนั้น สามารถสรุปข้อมูลนอกเหนือจากข้อมูลการฝึกอบรมได้
ผู้เขียนร่วม Bingyi Kang สาธิตข้อจำกัดนี้บน X โดยอธิบายว่าเมื่อพวกเขาฝึกแบบจำลองด้วยลูกบอลที่เคลื่อนที่เร็วซึ่งเคลื่อนที่จากซ้ายไปขวาและถอยหลัง จากนั้นทดสอบด้วยลูกบอลที่เคลื่อนที่ช้า แบบจำลองจะแสดงให้ลูกบอลเคลื่อนที่อย่างกะทันหัน เปลี่ยนทิศทางหลังจากผ่านไปเพียงไม่กี่เฟรม (คุณสามารถดูได้ในวิดีโอที่ 1 นาที 55 วินาที)
การค้นพบนี้ถือเป็นความท้าทายต่อโครงการ Sora ของ OpenAI OpenAI กล่าวว่า Sora คาดว่าจะพัฒนาไปสู่แบบจำลองโลกแห่งความจริงผ่านการขยายตัวอย่างต่อเนื่อง และยังอ้างว่ามีความเข้าใจพื้นฐานเกี่ยวกับการโต้ตอบทางกายภาพและเรขาคณิตสามมิติอยู่แล้ว แต่นักวิจัยชี้ให้เห็นว่าการขยายขนาดอย่างง่าย ๆ เพียงอย่างเดียวนั้นไม่เพียงพอสำหรับโมเดลการสร้างวิดีโอในการค้นพบกฎทางกายภาพพื้นฐาน
Yann LeCun หัวหน้าฝ่าย AI ของ Meta ยังแสดงความกังขา โดยกล่าวว่าการทำนายโลกด้วยการสร้างพิกเซลนั้นเป็น "การเสียเวลาและถึงวาระที่จะล้มเหลว" อย่างไรก็ตาม หลายคนยังคงคาดหวังว่า OpenAI จะเปิดตัว Sora ตามกำหนดในช่วงกลางเดือนกุมภาพันธ์ 2024 เพื่อแสดงให้เห็นถึงศักยภาพในการสร้างวิดีโอ
งานวิจัยนี้ชี้ให้เห็นทิศทางการพัฒนาด้านการสร้างวิดีโอ AI และยังเตือนเราว่าการประเมินความสามารถของ AI ไม่เพียงแต่อยู่เพียงผลกระทบผิวเผินเท่านั้น แต่ยังต้องเจาะลึกถึงกลไกและข้อจำกัดโดยธรรมชาติด้วย ในอนาคต วิธีการอนุญาตให้ AI เข้าใจและจำลองโลกทางกายภาพอย่างแท้จริงยังคงเป็นความท้าทายที่ยิ่งใหญ่