Alibaba Cloud เปิดตัวโมเดลการใช้เหตุผลทางคณิตศาสตร์ใหม่ Qwen2.5-Math-PRM เวอร์ชัน 7B แซงหน้า GPT-4o - บทความ AI

ผู้เขียน：Eve Cole เวลาอัปเดต：2025-01-26 11:00:02

ทีม Alibaba Cloud Tongyi เปิดตัวโมเดลรางวัลกระบวนการให้เหตุผลทางคณิตศาสตร์ใหม่ Qwen2.5-Math-PRM รุ่นนี้มีจำหน่ายในขนาด 72B และ 7B มีประสิทธิภาพเหนือกว่าโมเดลโอเพ่นซอร์สที่คล้ายกันอย่างมาก โดยเฉพาะอย่างยิ่งในการระบุข้อผิดพลาดในการใช้เหตุผล เป็นที่น่าสังเกตว่าเวอร์ชัน 7B ยังเหนือกว่า GPT-4o ยอดนิยมอีกด้วย ซึ่งแสดงให้เห็นถึงความก้าวหน้าที่ก้าวล้ำของ Alibaba Cloud ในด้านการวิจัยและพัฒนาโมเดลการอนุมาน เพื่อประเมินประสิทธิภาพของแบบจำลองอย่างครอบคลุมมากขึ้น ทีมงานยังได้เปิด ProcessBench ซึ่งเป็นมาตรฐานการประเมินขั้นแรก ซึ่งมีคำถามทางคณิตศาสตร์ 3,400 ข้อที่ครอบคลุมความยากของคณิตศาสตร์โอลิมปิก และมีกระบวนการให้เหตุผลโดยละเอียดโดยผู้เชี่ยวชาญเพื่อให้มั่นใจในความเป็นวิทยาศาสตร์ และความเข้มงวดในการประเมิน

วันนี้ ทีม Alibaba Cloud Tongyi ได้เปิดตัวโมเดลการให้รางวัลกระบวนการให้เหตุผลทางคณิตศาสตร์ใหม่อย่างเป็นทางการ Qwen2.5-Math-PRM โมเดลนี้มีจำหน่ายในขนาด 72B และ 7B และประสิทธิภาพดีกว่าโมเดลรางวัลกระบวนการโอเพ่นซอร์สที่คล้ายกันอย่างมาก โดยเฉพาะอย่างยิ่งในการระบุข้อผิดพลาดในการอนุมาน

Qwen2.5-Math-PRM เวอร์ชัน 7B แซงหน้า GPT-4o ที่ได้รับความนิยมในอุตสาหกรรมอย่างน่าประหลาดใจ ความสำเร็จนี้นับเป็นก้าวสำคัญสำหรับ Alibaba Cloud ในการพัฒนาโมเดลการอนุมาน เพื่อประเมินประสิทธิภาพของแบบจำลองในการให้เหตุผลทางคณิตศาสตร์อย่างครอบคลุม ทีมงาน Tongyi ยังได้เปิดแหล่งที่มาของ ProcessBench ซึ่งเป็นมาตรฐานการประเมินขั้นแรกอีกด้วย มาตรฐานการประเมินนี้ครอบคลุมกรณีทดสอบปัญหาทางคณิตศาสตร์ 3,400 กรณี รวมถึงคำถามที่ยากจากการแข่งขันคณิตศาสตร์โอลิมปิกระดับนานาชาติ แต่ละกรณีจะมีกระบวนการให้เหตุผลโดยละเอียดโดยผู้เชี่ยวชาญที่เป็นมนุษย์ เพื่อให้มั่นใจว่าการประเมินมีความเป็นวิทยาศาสตร์และความครอบคลุม

จากการประเมินประสิทธิภาพของ Qwen2.5-Math-PRM บน ProcessBench ทีมวิจัยพบว่าทั้งแบบจำลองขนาด 72B และ 7B ทำงานได้ดี โดยเฉพาะรุ่น 7B ไม่เพียงแต่เหนือกว่ารุ่นโอเพ่นซอร์สที่มีขนาดเท่ากันเท่านั้น แต่ยังเหนือกว่ารุ่นโอเพนซอร์ส GPT-4o-0806 แบบปิดในบางด้านอีกด้วย สิ่งนี้พิสูจน์ศักยภาพที่ยอดเยี่ยมของแบบจำลองรางวัลกระบวนการ (PRM) ในการปรับปรุงความน่าเชื่อถือของการให้เหตุผล และให้แนวคิดใหม่สำหรับการพัฒนาเทคโนโลยีการควบคุมดูแลกระบวนการให้เหตุผลในอนาคต

ผลงานเชิงนวัตกรรมของทีม Alibaba Cloud Tongyi นี้ไม่เพียงแต่ส่งเสริมความก้าวหน้าของเทคโนโลยีการให้เหตุผลด้วยปัญญาประดิษฐ์เท่านั้น แต่ยังให้ข้อมูลอ้างอิงอันมีค่าสำหรับนักพัฒนารายอื่นๆ ในอุตสาหกรรมอีกด้วย ทีมงาน Tongyi หวังที่จะแบ่งปันประสบการณ์กับนักวิจัยมากขึ้นและส่งเสริมความก้าวหน้าทางเทคโนโลยีในอุตสาหกรรมทั้งหมดผ่านโอเพ่นซอร์ส

การเปิดตัว Qwen2.5-Math-PRM ถือเป็นความก้าวหน้าครั้งใหม่สำหรับโมเดลขนาดใหญ่ในด้านการใช้เหตุผลทางคณิตศาสตร์ นอกจากนี้ ฟีเจอร์โอเพ่นซอร์สยังมอบความสะดวกสบายอย่างมากสำหรับการวิจัยและการประยุกต์ใช้ในแวดวงวิชาการและอุตสาหกรรม ความเป็นไปได้มากขึ้นในการพัฒนาปัญญาประดิษฐ์ในอนาคต