การพัฒนาการเรียนรู้เชิงลึกในด้านการควบคุมหุ่นยนต์ถูกจำกัดด้วยการขาดรูปแบบข้อมูลขนาดใหญ่ เมื่อเร็วๆ นี้ ทีมวิจัยจากมหาวิทยาลัย Tsinghua ได้สร้างความก้าวหน้าด้วยกลยุทธ์การรวบรวมข้อมูลที่มีประสิทธิภาพ โดยสามารถรวบรวมข้อมูลได้เพียงพอในบ่ายวันเดียว ซึ่งบรรลุอัตราความสำเร็จ 90% สำหรับกลยุทธ์หุ่นยนต์ในสภาพแวดล้อมใหม่และวัตถุใหม่ บรรณาธิการของ Downcodes จะพาคุณไปทำความเข้าใจกับผลลัพธ์ของการวิจัยนี้และกฎการปรับขนาดข้อมูลที่อยู่เบื้องหลัง
การพัฒนาอย่างรวดเร็วของการเรียนรู้เชิงลึกไม่สามารถแยกออกจากชุดข้อมูล แบบจำลอง และการคำนวณขนาดใหญ่ได้ ในด้านการประมวลผลภาษาธรรมชาติและคอมพิวเตอร์วิทัศน์ นักวิจัยได้ค้นพบความสัมพันธ์ระหว่างกฎอำนาจระหว่างประสิทธิภาพของแบบจำลองและขนาดข้อมูล อย่างไรก็ตาม สาขาวิทยาการหุ่นยนต์ โดยเฉพาะอย่างยิ่งสาขาการควบคุมหุ่นยนต์ ยังไม่ได้กำหนดกฎเกณฑ์ขนาดที่คล้ายกัน
เมื่อเร็วๆ นี้ ทีมวิจัยจากมหาวิทยาลัย Tsinghua ได้ตีพิมพ์บทความสำรวจกฎของการปรับขนาดข้อมูลในการเรียนรู้การเลียนแบบหุ่นยนต์ และเสนอกลยุทธ์การรวบรวมข้อมูลที่มีประสิทธิภาพ ซึ่งรวบรวมข้อมูลได้เพียงพอในบ่ายวันเดียว ทำให้กลยุทธ์ดังกล่าวสามารถบรรลุอัตราความสำเร็จประมาณ 90% ในการเรียนรู้การเลียนแบบหุ่นยนต์ สภาพแวดล้อมและวัตถุใหม่
นักวิจัยได้แบ่งความสามารถในการวางลักษณะทั่วไปออกเป็นสองมิติ ได้แก่ การวางลักษณะทั่วไปของสภาพแวดล้อมและการวางลักษณะทั่วไปของวัตถุ และใช้มือจับมือจับเพื่อรวบรวมข้อมูลการสาธิตของมนุษย์ในสภาพแวดล้อมต่างๆ และวัตถุที่แตกต่างกัน และสร้างแบบจำลองข้อมูลเหล่านี้โดยใช้กลยุทธ์การแพร่กระจาย อันดับแรกนักวิจัยมุ่งเน้นไปที่งานสองอย่าง: การเทน้ำและการวางเมาส์ โดยการวิเคราะห์ว่าประสิทธิภาพของกลยุทธ์ในสภาพแวดล้อมใหม่หรือวัตถุใหม่เปลี่ยนแปลงไปอย่างไรเมื่อเพิ่มจำนวนสภาพแวดล้อมการฝึกอบรมหรือวัตถุ พวกเขาสรุปกฎของการปรับขนาดข้อมูล
ผลการวิจัยแสดงให้เห็นว่า:
ความสามารถของนโยบายในการสรุปกับวัตถุใหม่ สภาพแวดล้อมใหม่ หรือทั้งสองอย่าง มีความสัมพันธ์แบบอำนาจ-กฎหมายกับจำนวนวัตถุการฝึกอบรม สภาพแวดล้อมการฝึกอบรม หรือคู่สภาพแวดล้อมการฝึกอบรม-วัตถุ ตามลำดับ
การเพิ่มความหลากหลายของสภาพแวดล้อมและวัตถุจะมีประสิทธิภาพมากกว่าการเพิ่มจำนวนการสาธิตของแต่ละสภาพแวดล้อมหรือวัตถุ
ด้วยการรวบรวมข้อมูลในสภาพแวดล้อมให้มากที่สุดเท่าที่จะเป็นไปได้ (เช่น 32 สภาพแวดล้อม) โดยมีวัตถุปฏิบัติการที่ไม่ซ้ำกันและการสาธิต 50 ครั้งในแต่ละสภาพแวดล้อม จึงสามารถฝึกอบรมกลยุทธ์ที่มีความสามารถในการวางนัยทั่วไปที่แข็งแกร่ง (อัตราความสำเร็จ 90%) เพื่อให้สามารถทำงานได้ ในสภาพแวดล้อมใหม่และวัตถุใหม่
ตามกฎการปรับขนาดข้อมูลเหล่านี้ นักวิจัยได้เสนอกลยุทธ์การรวบรวมข้อมูลที่มีประสิทธิภาพ พวกเขาแนะนำให้รวบรวมข้อมูลในสภาพแวดล้อมที่แตกต่างกันมากที่สุดเท่าที่จะเป็นไปได้ โดยใช้ออบเจ็กต์ที่ไม่ซ้ำกันเพียงอันเดียวในแต่ละสภาพแวดล้อม เมื่อจำนวนคู่สภาพแวดล้อม-วัตถุทั้งหมดถึง 32 คู่ โดยปกติแล้วจะเพียงพอในการฝึกนโยบายที่สามารถดำเนินการในสภาพแวดล้อมใหม่และโต้ตอบกับวัตถุที่มองไม่เห็นก่อนหน้านี้ สำหรับแต่ละคู่สภาพแวดล้อม-ออบเจ็กต์ ขอแนะนำให้รวบรวม 50 การสาธิต
เพื่อตรวจสอบการนำไปใช้โดยทั่วไปของกลยุทธ์การรวบรวมข้อมูล นักวิจัยได้ประยุกต์ใช้กับงานใหม่ 2 ประการ ได้แก่ การพับผ้าเช็ดตัวและการถอดปลั๊กเครื่องชาร์จ ผลลัพธ์แสดงให้เห็นว่ากลยุทธ์นี้ยังสามารถฝึกกลยุทธ์ที่มีความสามารถในการวางนัยทั่วไปที่แข็งแกร่งกับงานใหม่ทั้งสองนี้ได้
การศึกษานี้แสดงให้เห็นว่าด้วยการลงทุนเวลาและทรัพยากรที่ค่อนข้างน้อย คุณสามารถเรียนรู้นโยบายงานเดียวที่สามารถปรับใช้กับสภาพแวดล้อมและวัตถุใดๆ ที่มีการปรับใช้แบบ Zero-Shot เพื่อสนับสนุนความพยายามของนักวิจัยในด้านนี้ ทีม Tsinghua ได้เปิดตัวโค้ด ข้อมูล และแบบจำลอง โดยหวังว่าจะสร้างแรงบันดาลใจให้กับการวิจัยเพิ่มเติมในสาขานี้ และในที่สุดก็ทำให้หุ่นยนต์สากลสามารถแก้ปัญหาที่ซับซ้อนในโลกที่เปิดกว้างได้
ที่อยู่กระดาษ: https://arxiv.org/pdf/2410.18647
งานวิจัยนี้มอบประสบการณ์อันมีค่าสำหรับกฎการปรับขนาดข้อมูลในด้านการควบคุมหุ่นยนต์ และกลยุทธ์การรวบรวมข้อมูลที่มีประสิทธิภาพยังให้ทิศทางใหม่สำหรับการวิจัยในอนาคต โค้ดโอเพ่นซอร์ส ข้อมูล และแบบจำลองของทีมมหาวิทยาลัย Tsinghua จะส่งเสริมการพัฒนาในสาขานี้ต่อไป และในที่สุดก็บรรลุผลสำเร็จเป็นหุ่นยนต์เอนกประสงค์ที่ทรงพลังยิ่งขึ้น