บรรณาธิการของ Downcodes จะพาคุณไปทำความเข้าใจผลการวิจัยล่าสุดของ OpenAI: การทดสอบเกณฑ์มาตรฐาน MLE-bench! งานวิจัยนี้มีวัตถุประสงค์เพื่อประเมินความสามารถที่แท้จริงของตัวแทน AI ในสาขาวิศวกรรมการเรียนรู้ของเครื่อง ทีมวิจัยได้เลือกการแข่งขันแมชชีนเลิร์นนิงของ Kaggle จำนวน 75 รายการเป็นสถานการณ์ทดสอบ ครอบคลุมหลายแง่มุม เช่น การฝึกโมเดล การเตรียมข้อมูล และการดำเนินการทดลอง และใช้ข้อมูลการจัดอันดับสาธารณะของ Kaggle เป็นเกณฑ์มาตรฐานของมนุษย์ในการเปรียบเทียบ ทีมวิจัยได้รับประสบการณ์อันมีค่าและได้ใช้โค้ดมาตรฐานแบบโอเพ่นซอร์สเพื่ออำนวยความสะดวกในการวิจัยในภายหลังด้วยการทดสอบโมเดลภาษาที่ล้ำหน้าหลากหลายรูปแบบ
ในการศึกษาล่าสุด ทีมวิจัยของ OpenAI ได้เปิดตัวเกณฑ์มาตรฐานใหม่ที่เรียกว่า MLE-bench ซึ่งออกแบบมาเพื่อประเมินประสิทธิภาพของตัวแทน AI ในด้านวิศวกรรมการเรียนรู้ของเครื่อง
การศึกษานี้มุ่งเน้นเป็นพิเศษไปที่การแข่งขันที่เกี่ยวข้องกับวิศวกรรมการเรียนรู้ของเครื่อง 75 รายการจาก Kaggle ซึ่งได้รับการออกแบบมาเพื่อทดสอบทักษะที่หลากหลายที่ตัวแทนในโลกแห่งความเป็นจริงต้องการ รวมถึงการฝึกโมเดล การเตรียมชุดข้อมูล และการดำเนินการทดสอบ
เพื่อการประเมินที่ดีขึ้น ทีมวิจัยใช้ข้อมูลพื้นฐานจากการจัดอันดับสาธารณะของ Kaggle เพื่อสร้างเกณฑ์มาตรฐานของมนุษย์สำหรับการแข่งขันแต่ละรายการ ในการทดลอง พวกเขาใช้สถาปัตยกรรมเอเจนต์โอเพ่นซอร์สเพื่อทดสอบโมเดลภาษาที่ล้ำสมัยหลายโมเดล ผลลัพธ์แสดงให้เห็นว่าการกำหนดค่าที่มีประสิทธิภาพดีที่สุด - ตัวอย่าง o1 ของ OpenAI รวมกับสถาปัตยกรรม AIDE - บรรลุระดับเหรียญทองแดง Kaggle ในการแข่งขัน 16.9%
ไม่เพียงเท่านั้น ทีมวิจัยยังได้อภิปรายเชิงลึกเกี่ยวกับรูปแบบการขยายทรัพยากรของตัวแทน AI และศึกษาผลกระทบที่ปนเปื้อนจากการฝึกอบรมล่วงหน้ากับผลลัพธ์ พวกเขาเน้นย้ำว่าผลการวิจัยเหล่านี้เป็นพื้นฐานสำหรับความเข้าใจเพิ่มเติมเกี่ยวกับความสามารถของตัวแทน AI ในด้านวิศวกรรมการเรียนรู้ของเครื่องในอนาคต เพื่ออำนวยความสะดวกในการวิจัยในอนาคต ทีมงานยังได้จัดทำโค้ดมาตรฐานแบบโอเพ่นซอร์สเพื่อให้นักวิจัยคนอื่นๆ ใช้อีกด้วย
การเปิดตัวงานวิจัยนี้ถือเป็นความก้าวหน้าที่สำคัญในด้านการเรียนรู้ของเครื่อง โดยเฉพาะอย่างยิ่งในการประเมินและปรับปรุงความสามารถทางวิศวกรรมของตัวแทน AI นักวิทยาศาสตร์หวังว่า MLE-bench จะสามารถให้มาตรฐานการประเมินทางวิทยาศาสตร์และเป็นพื้นฐานในทางปฏิบัติสำหรับการพัฒนาเทคโนโลยี AI ได้มากขึ้น
ทางเข้าโครงการ: https://openai.com/index/mle-bench/
ไฮไลท์:
MLE-bench เป็นเกณฑ์มาตรฐานใหม่ที่ออกแบบมาเพื่อประเมินความสามารถด้านวิศวกรรมการเรียนรู้ของเครื่องของตัวแทน AI
การวิจัยครอบคลุมการแข่งขัน Kaggle 75 รายการ โดยทดสอบความสามารถในการฝึกอบรมโมเดลและการประมวลผลข้อมูลของตัวแทน
การผสมผสานสถาปัตยกรรม o1-preview และ AIDE ของ OpenAI ไปถึงระดับทองแดงของ Kaggle ในการแข่งขัน 16.9%
โอเพ่นซอร์สของเกณฑ์มาตรฐาน MLE มอบมาตรฐานใหม่สำหรับการประเมินตัวแทน AI ในสาขาวิศวกรรมการเรียนรู้ของเครื่อง และยังมีส่วนช่วยในการพัฒนาเทคโนโลยี AI อีกด้วย บรรณาธิการของ Downcodes หวังว่าจะได้รับผลการวิจัยเพิ่มเติมเกี่ยวกับ MLE-bench ในอนาคต!