เมื่อเร็ว ๆ นี้การศึกษาที่ดำเนินการร่วมกันโดยสถาบันวิจัย Bytedance และมหาวิทยาลัย Tsinghua ได้ตั้งคำถามเกี่ยวกับความสามารถในการทำความเข้าใจทางกายภาพของโมเดลการสร้างวิดีโอ AI ในปัจจุบัน ผ่านการทดลองที่ออกแบบมาอย่างระมัดระวังทีมวิจัยพบว่าแบบจำลองเหล่านี้เช่น SORA ของ OpenAi แม้ว่าจะน่าประทับใจทางสายตา แต่ก็ไม่เข้าใจกฎทางกายภาพพื้นฐาน แต่แทนที่จะอาศัยสีขนาดและการเรียนรู้และการจัดลำดับความสำคัญของพื้นผิวเช่นความเร็วและความเร็ว รูปร่าง. การศึกษาครั้งนี้ก่อให้เกิดการคิดเชิงลึกของผู้คนเกี่ยวกับความเป็นจริงของการจำลอง AI และยังท้าทายโมเดล AI ที่มีความสามารถในการทำความเข้าใจทางกายภาพของพวกเขา
เมื่อเร็ว ๆ นี้นักวิจัยจากสถาบันวิจัย Bytedance และมหาวิทยาลัย Tsinghua ร่วมกันเปิดตัวการศึกษาใหม่โดยชี้ให้เห็นว่ารูปแบบการสร้างวิดีโอ AI ในปัจจุบันเช่น SORA ของ OpenAi สามารถสร้างผลกระทบที่น่าทึ่งได้ แต่เข้าใจฟิสิกส์พื้นฐาน . การศึกษาครั้งนี้ได้จุดประกายการอภิปรายอย่างกว้างขวางเกี่ยวกับความสามารถของ AI ในการจำลองความเป็นจริง
ทีมวิจัยทดสอบโมเดลการสร้างวิดีโอ AI และตั้งค่าสถานการณ์ที่แตกต่างกันสามสถานการณ์คือการทำนายในโหมดที่รู้จักการทำนายในโหมดที่ไม่รู้จักและการรวมกันใหม่ขององค์ประกอบที่คุ้นเคย เป้าหมายของพวกเขาคือการดูว่าแบบจำลองเหล่านี้เรียนรู้กฎของฟิสิกส์จริงหรือไม่หรือพวกเขาพึ่งพาคุณสมบัติพื้นผิวในการฝึกอบรมเพียงอย่างเดียว
จากการทดสอบนักวิจัยพบว่าโมเดล AI เหล่านี้ไม่ได้เรียนรู้กฎที่ใช้ในระดับสากล แต่พวกเขาพึ่งพาคุณสมบัติพื้นผิวเป็นหลักเช่นสีขนาดความเร็วและรูปร่างเมื่อสร้างวิดีโอและทำตามลำดับความสำคัญที่เข้มงวด: สีเป็นที่ต้องการตามด้วยขนาดความเร็วและรูปร่าง
ในสถานการณ์ที่คุ้นเคยโมเดลเหล่านี้จะทำงานได้อย่างสมบูรณ์แบบ แต่เมื่อพวกเขาพบกับสถานการณ์ที่ไม่รู้จักพวกเขาก็จะไร้พลัง การทดสอบในการศึกษาแสดงให้เห็นถึงข้อ จำกัด ของแบบจำลอง AI เมื่อต้องรับมือกับการเคลื่อนไหวของวัตถุ ตัวอย่างเช่นเมื่อโมเดลรถไฟโดยใช้ทรงกลมที่เคลื่อนที่อย่างรวดเร็วเพื่อเลื่อนไปมาในขณะที่ให้ทรงกลมช้าในระหว่างการทดสอบแบบจำลองแสดงให้เห็นว่าทรงกลมนั้นเปลี่ยนทิศทางหลังจากสองสามเฟรม ปรากฏการณ์นี้สะท้อนให้เห็นอย่างชัดเจนในวิดีโอที่เกี่ยวข้อง
นักวิจัยชี้ให้เห็นว่าเพียงแค่ขยายขนาดของแบบจำลองหรือการเพิ่มข้อมูลการฝึกอบรมไม่ได้แก้ปัญหา แม้ว่าโมเดลขนาดใหญ่จะทำงานได้ดีขึ้นภายใต้รูปแบบที่คุ้นเคยและการผสมผสาน แต่พวกเขาก็ยังไม่เข้าใจกฎทางกายภาพพื้นฐานหรือจัดการกับสถานการณ์ที่เกินขอบเขตของการฝึกอบรม ผู้เขียนร่วมวิจัย Kang Bingyi กล่าวถึง: "หากการครอบคลุมข้อมูลดีพอในสถานการณ์ที่เฉพาะเจาะจงอาจเป็นไปได้ที่จะสร้างแบบจำลองโลกที่มีการใช้งานมากเกินไป" รูปแบบโลกควรจะสามารถส่งเสริมเกินกว่าข้อมูลการฝึกอบรม
ผู้เขียนร่วม Bingyi Kang แสดงให้เห็นถึงข้อ จำกัด นี้เกี่ยวกับ X อธิบายว่าเมื่อพวกเขาฝึกฝนแบบจำลองด้วยลูกบอลที่เคลื่อนไหวเร็วจากซ้ายไปขวาและถอยหลังจากนั้นทดสอบด้วยลูกบอลที่เคลื่อนไหวช้า เฟรมทิศทางเปลี่ยนไปทันที (คุณสามารถดูได้ในวิดีโอ 1 นาทีและ 55 วินาที)
ผลการศึกษาครั้งนี้ท้าทายโปรแกรม SORA ของ Openai Openai ได้กล่าวว่า SORA คาดว่าจะพัฒนาเป็นแบบจำลองโลกที่แท้จริงผ่านการขยายตัวอย่างต่อเนื่องและแม้แต่อ้างว่ามีความเข้าใจพื้นฐานเกี่ยวกับการมีปฏิสัมพันธ์ทางกายภาพและเรขาคณิตสามมิติ แต่นักวิจัยชี้ให้เห็นว่าการขยายตัวแบบง่าย ๆ เพียงอย่างเดียวนั้นไม่เพียงพอที่จะอนุญาตให้โมเดลการสร้างวิดีโอค้นพบกฎทางกายภาพขั้นพื้นฐาน
Yann Lecun หัวหน้าฝ่าย AI ที่ Meta แสดงความสงสัยเกี่ยวกับเรื่องนี้โดยเชื่อว่าการปฏิบัติในการทำนายโลกโดยการสร้างพิกเซลคือ "เสียเวลาและถึงวาระที่จะล้มเหลว" อย่างไรก็ตามเรื่องนี้หลายคนยังคงรอคอยที่จะเปิดตัว Sora ของ Openai ตามกำหนดในกลางเดือนกุมภาพันธ์ 2567 แสดงให้เห็นถึงศักยภาพในการสร้างวิดีโอ
ประเด็นสำคัญ:
การวิจัยพบว่ารูปแบบการสร้างวิดีโอ AI มีข้อบกพร่องที่สำคัญในการทำความเข้าใจกฎหมายทางกายภาพและขึ้นอยู่กับลักษณะพื้นผิวของข้อมูลการฝึกอบรม
การปรับขนาดของโมเดลไม่ได้แก้ปัญหาซึ่งไม่ทำงานได้ดีในสถานการณ์ที่ไม่รู้จัก
โปรแกรม SORA ของ Openai เผชิญกับความท้าทายและการขยายตัวเพียงอย่างเดียวไม่สามารถบรรลุโมเดลโลกที่แท้จริงได้
ในระยะสั้นการศึกษาครั้งนี้ชี้ให้เห็นถึงทิศทางสำหรับการพัฒนาเทคโนโลยีการสร้างวิดีโอ AI นั่นคือการขยายขนาดที่เรียบง่ายไม่สามารถแก้ปัญหาพื้นฐานของความเข้าใจของ AI เกี่ยวกับกฎหมายทางกายภาพได้ ในอนาคตแบบจำลอง AI จำเป็นต้องเรียนรู้และทำความเข้าใจหลักการทางกายภาพอย่างลึกซึ้งยิ่งขึ้นเพื่อให้บรรลุการจำลองที่แม่นยำและการทำนายของโลกแห่งความเป็นจริงแทนที่จะอยู่ในขั้นตอนของการเลียนแบบคุณสมบัติพื้นผิว