การฝึกอบรมข้อมูลที่แข็งแกร่งระดับล้าน โมเดลภาษาขนาดใหญ่ Robin3D 3D ความก้าวหน้าครั้งใหม่!

ผู้เขียน：Eve Cole เวลาอัปเดต：2024-12-10 19:32:02

บรรณาธิการของ Downcodes ได้เรียนรู้ว่าทีมวิจัยจากสถาบันเทคโนโลยีอิลลินอยส์และมหาวิทยาลัยอื่นๆ ร่วมกันเปิดตัว Robin3D ซึ่งเป็นโมเดลภาษาขนาดใหญ่ฉาก 3 มิติใหม่ แบบจำลองนี้ได้รับการฝึกฝนบนชุดข้อมูลขนาดใหญ่ที่มีคำสั่งหลายล้านคำสั่ง และได้รับประสิทธิภาพที่ล้ำสมัยบนเกณฑ์มาตรฐานการเรียนรู้แบบหลายรูปแบบ 3 มิติที่ใช้กันทั่วไปห้ารายการ นวัตกรรมของ Robin3D อยู่ในเครื่องมือข้อมูล RIG ซึ่งสามารถสร้างข้อมูลคำสั่งที่ไม่ตรงกันและหลากหลายได้ ซึ่งจะช่วยปรับปรุงความสามารถในการแยกแยะ ความเข้าใจ และลักษณะทั่วไปของโมเดล เอาชนะความสามารถในการสรุปทั่วไปที่ไม่เพียงพอของโมเดลภาษา 3 มิติที่มีอยู่และข้อบกพร่องที่มากเกินไป นอกจากนี้ยังผสานรวมเทคโนโลยีต่างๆ เช่น เครื่องฉายภาพเสริมความสัมพันธ์ (RAP) และ ID Feature Binding (IFB) เพื่อเพิ่มความเข้าใจในฉากและวัตถุของโมเดล

แบบจำลองนี้ได้รับการฝึกฝนบนชุดข้อมูลขนาดใหญ่ที่มีหนึ่งล้านคำสั่งที่ต้องปฏิบัติตาม และได้รับประสิทธิภาพที่ล้ำสมัยบนเกณฑ์มาตรฐานการเรียนรู้แบบหลายรูปแบบ 3 มิติที่ใช้กันทั่วไป 5 รายการ นับเป็นก้าวสำคัญในการสร้าง 3D ที่เป็นสากล ความก้าวหน้าที่สำคัญ ไปในทิศทางของตัวแทนอัจฉริยะ

ความสำเร็จของ Robin3D เกิดจากกลไกข้อมูลที่เป็นนวัตกรรม RIG (Robust Instruction Generation) เอ็นจิ้น RIG ได้รับการออกแบบมาเพื่อสร้างประเภทข้อมูลคำสั่งหลักสองประเภท ได้แก่ ข้อมูลการปฏิบัติตามคำสั่งของฝ่ายตรงข้าม และข้อมูลการปฏิบัติตามคำสั่งที่หลากหลาย

ข้อมูลการติดตามผลของฝ่ายตรงข้ามช่วยเพิ่มความเข้าใจในการเลือกปฏิบัติของแบบจำลองโดยการผสมตัวอย่างเชิงบวกและเชิงลบ ในขณะที่ข้อมูลที่ติดตามผลที่หลากหลายมีสไตล์คำสั่งที่หลากหลายเพื่อเพิ่มความสามารถในการวางนัยทั่วไปของแบบจำลอง

นักวิจัยชี้ให้เห็นว่าโมเดลภาษาขนาดใหญ่ 3 มิติที่มีอยู่ส่วนใหญ่อาศัยการจับคู่ภาษาภาพ 3 มิติด้านหน้าและคำแนะนำตามเทมเพลตสำหรับการฝึกอบรม ซึ่งนำไปสู่ความสามารถในการสรุปข้อมูลทั่วไปที่ไม่เพียงพอและความเสี่ยงในการติดตั้งมากเกินไป Robin3D เอาชนะข้อจำกัดเหล่านี้ได้อย่างมีประสิทธิภาพด้วยการแนะนำข้อมูลคำสั่งที่ขัดแย้งกันและหลากหลาย

โมเดล Robin3D ยังรวมความสามารถในการอ้างอิงและการวางตำแหน่ง ID Feature Binding (IFB) ของความสัมพันธ์ Augmented Projector (RAP) โมดูล RAP ปรับปรุงคุณสมบัติที่เน้นวัตถุเป็นศูนย์กลางด้วยข้อมูลบริบทและตำแหน่งระดับฉากที่หลากหลาย ในขณะที่โมดูล IFB เสริมความแข็งแกร่งให้กับการเชื่อมต่อระหว่างแต่ละ ID โดยการผูกเข้ากับคุณสมบัติที่เกี่ยวข้อง

ผลการทดลองแสดงให้เห็นว่า Robin3D มีประสิทธิภาพเหนือกว่าวิธีการที่ดีที่สุดก่อนหน้านี้ในเกณฑ์มาตรฐาน 5 รายการ ได้แก่ ScanRefer, Multi3DRefer, Scan2Cap, ScanQA และ SQA3D โดยไม่จำเป็นต้องปรับแต่งอย่างละเอียดสำหรับงานเฉพาะ

โดยเฉพาะอย่างยิ่งในการประเมิน Multi3DRefer รวมถึงกรณีที่ไม่มีเป้าหมาย Robin3D ได้รับการปรับปรุงอย่างมีนัยสำคัญที่ 7.8% และ 7.3% ในตัวบ่งชี้ [email protected] และ [email protected] ตามลำดับ

การเปิดตัว Robin3D ถือเป็นความก้าวหน้าครั้งสำคัญในด้านความฉลาดเชิงพื้นที่ของโมเดลภาษาขนาดใหญ่ 3 มิติ โดยวางรากฐานที่มั่นคงสำหรับการสร้างเอเจนต์ 3 มิติที่อเนกประสงค์และทรงพลังยิ่งขึ้นในอนาคต

ที่อยู่กระดาษ: https://arxiv.org/pdf/2410.00255

การเกิดขึ้นของ Robin3D ได้นำมาซึ่งความก้าวหน้าครั้งใหม่อย่างไม่ต้องสงสัยในด้านการมองเห็น 3 มิติและปัญญาประดิษฐ์ ฉันเชื่อว่าในอนาคต Robin3D จะมีบทบาทในสาขาต่างๆ มากขึ้น และส่งเสริมการพัฒนาความฉลาดของ 3D อย่างรวดเร็ว บรรณาธิการของ Downcodes จะยังคงให้ความสนใจกับการพัฒนาล่าสุดในสาขานี้ต่อไป