โมเดลภาษาขนาดใหญ่ (LLM) เผชิญกับความท้าทายในการใช้เหตุผลที่ซับซ้อน และเฟรมเวิร์กโอเพ่นซอร์สที่เป็นนวัตกรรมใหม่ที่เรียกว่า OpenR ก็ถือกำเนิดขึ้น OpenR ได้รับการพัฒนาร่วมกันโดยนักวิจัยจากมหาวิทยาลัยหลายแห่ง รวมถึง University College London โดยปรับปรุงความสามารถในการให้เหตุผลของ LLM อย่างมีนัยสำคัญโดยการรวมการคำนวณเวลาทดสอบ การเรียนรู้แบบเสริมกำลัง และการควบคุมดูแลกระบวนการ ไม่เพียงจำลองความสามารถในการให้เหตุผลของแบบจำลองขั้นสูงเท่านั้น แต่ยังบรรลุความก้าวหน้าบนพื้นฐานนี้ โดยให้แนวคิดใหม่ในการแก้ไขข้อบกพร่องของ LLM ในด้านคณิตศาสตร์ การเขียนโปรแกรม และปัญหาทางวิทยาศาสตร์ เครื่องมือแก้ไข Downcodes จะทำให้คุณมีความเข้าใจเชิงลึกเกี่ยวกับการออกแบบที่เป็นเอกลักษณ์และประสิทธิภาพที่ยอดเยี่ยมของกรอบงาน OpenR
เฟรมเวิร์กโอเพ่นซอร์สที่เป็นนวัตกรรมใหม่ที่เรียกว่า OpenR เพิ่งเปิดตัวโดยมีเป้าหมายเพื่อแก้ไขข้อบกพร่องของโมเดลภาษาขนาดใหญ่ (LLM) ในงานการให้เหตุผลที่ซับซ้อน กรอบการทำงานดังกล่าวได้รับการพัฒนาร่วมกันโดยนักวิจัยจาก University College London, University of Liverpool, Shanghai Jiao Tong University, Hong Kong University of Science and Technology (Guangzhou) และ Westlake University จะเปิดช่องทางใหม่ในการปรับปรุงความสามารถในการให้เหตุผลของ LLM โดยการผสมผสาน การคำนวณเวลาทดสอบ การเรียนรู้แบบเสริมกำลัง และการควบคุมกระบวนการในรูปแบบใหม่
แม้ว่า LLM มีความก้าวหน้าอย่างมากในการสร้างภาษา แต่พวกเขายังคงเผชิญกับความท้าทายในการจัดการงานที่ซับซ้อน เช่น คณิตศาสตร์ การเขียนโปรแกรม และปัญหาทางวิทยาศาสตร์ การเกิดขึ้นของ OpenR คือการเชื่อมช่องว่างนี้และขยายขีดความสามารถของ LLM จากการสร้างข้อความธรรมดาไปจนถึงฟิลด์การให้เหตุผลขั้นสูงยิ่งขึ้น
การออกแบบของ OpenR ได้รับแรงบันดาลใจบางส่วนจากโมเดล o1 ของ OpenAI แต่เป้าหมายนั้นมีความทะเยอทะยานมากกว่า ไม่เพียงแต่จำลองความสามารถในการให้เหตุผลของโมเดลภาษาขั้นสูงเท่านั้น แต่ยังเพื่อให้บรรลุความก้าวหน้าบนพื้นฐานนี้ด้วย ในฐานะโซลูชันโอเพ่นซอร์สแรกที่ให้การสนับสนุนการใช้เหตุผลที่ซับซ้อน OpenR มุ่งเน้นไปที่การเก็บข้อมูล ประมวลผลแบบจำลองการให้รางวัล และวิธีการให้เหตุผลที่มีประสิทธิภาพ โดยมีเป้าหมายเพื่อเร่งการพัฒนาแบบจำลองภาษาขนาดใหญ่ที่เน้นการใช้เหตุผล
หมายเหตุแหล่งที่มาของรูปภาพ: รูปภาพนี้สร้างขึ้นโดย AI และรูปภาพนั้นได้รับอนุญาตจากผู้ให้บริการ Midjourney
โครงสร้างหลักของกรอบการทำงานเกี่ยวข้องกับการเพิ่มข้อมูล การเรียนรู้นโยบาย และคำแนะนำการให้เหตุผล ควบคู่ไปกับการสำรวจหลายเส้นทาง OpenR ใช้ Markov Decision Process (MDP) เพื่อสร้างโมเดลงานการให้เหตุผล โดยแยกย่อยกระบวนการให้เหตุผลที่ซับซ้อนออกเป็นชุดขั้นตอนที่สามารถประเมินและปรับให้เหมาะสมได้ วิธีการนี้ไม่เพียงแต่ปลูกฝังทักษะการใช้เหตุผลโดยตรงเท่านั้น แต่ยังสำรวจเส้นทางการให้เหตุผลหลายเส้นทางในแต่ละขั้นตอน ซึ่งจะช่วยปรับปรุงความแข็งแกร่งของกระบวนการให้เหตุผลอย่างมาก
คุณลักษณะสำคัญอีกประการหนึ่งของกรอบการทำงานคือแบบจำลองการให้รางวัลกระบวนการ (PRM) ซึ่งให้ผลป้อนกลับโดยละเอียดสำหรับขั้นตอนการให้เหตุผลระดับกลาง ช่วยให้แบบจำลองสามารถปรับการตัดสินใจได้แม่นยำยิ่งขึ้น แทนที่จะอาศัยการตัดสินผลลัพธ์สุดท้ายเพียงอย่างเดียว คำแนะนำที่ละเอียดนี้ช่วยปรับปรุงประสิทธิภาพการเรียนรู้ของแบบจำลองได้อย่างมาก
ในการทดสอบจริง OpenR แสดงให้เห็นประสิทธิภาพที่น่าประทับใจ การใช้ชุดข้อมูล MATH เป็นเกณฑ์มาตรฐาน ความแม่นยำในการอนุมานของ OpenR นั้นสูงกว่าวิธีการแบบเดิมประมาณ 10% การศึกษายังพบว่าวิธีการสำรวจแบบหลายเส้นทาง เช่น Best-of-N และ Beam Search นั้นดีกว่าเทคนิคการลงคะแนนเสียงข้างมากแบบธรรมดาอย่างมาก โดยเฉพาะอย่างยิ่งเมื่อทรัพยากรการประมวลผลมีจำกัด
เทคโนโลยีการเรียนรู้แบบเสริมกำลังของ OpenR โดยเฉพาะอย่างยิ่งวิธีการที่ใช้ PRM ทำงานได้ดีในสถานการณ์การเรียนรู้นโยบายออนไลน์ และส่งเสริมการปรับปรุงความสามารถในการให้เหตุผลของ LLM อย่างต่อเนื่อง ผลลัพธ์นี้แสดงให้เห็นว่าด้วยกลยุทธ์การเรียนรู้ที่ออกแบบมาอย่างรอบคอบ LLM มีศักยภาพที่จะบรรลุความก้าวหน้าที่ก้าวล้ำในงานการให้เหตุผลที่ซับซ้อน
ในฐานะแพลตฟอร์มโอเพ่นซอร์ส OpenR ช่วยให้นักวิจัยและนักพัฒนามีทรัพยากรอันมีค่าในการทำงานร่วมกันเพื่อพัฒนาความสามารถในการให้เหตุผลของโมเดลภาษา ไม่เพียงแต่มอบเส้นทางการอัปเกรดสำหรับ LLM ในปัจจุบันเท่านั้น แต่ยังปูทางสำหรับระบบ AI ที่ชาญฉลาดและมีความสามารถในการใช้เหตุผลมากขึ้นในอนาคต
เมื่อมองไปสู่อนาคต ทีม OpenR วางแผนที่จะขยายฟังก์ชันการทำงานของเฟรมเวิร์กเพิ่มเติมเพื่อให้ครอบคลุมประเภทงานการอนุมานที่กว้างขึ้น และเพิ่มประสิทธิภาพกระบวนการอนุมานต่อไป ความพยายามนี้คาดว่าจะมีส่วนสำคัญต่อเป้าหมายระยะยาวของตัวแทน AI ที่ใช้เหตุผลในการปรับปรุงตนเอง
ที่อยู่โครงการ: https://github.com/facebook/openr
โดยรวมแล้ว การเกิดขึ้นของกรอบงาน OpenR มอบความเป็นไปได้ใหม่ๆ สำหรับการพัฒนาโมเดลภาษาขนาดใหญ่ในด้านการใช้เหตุผลที่ซับซ้อน นอกจากนี้ ฟีเจอร์โอเพ่นซอร์สยังอำนวยความสะดวกให้นักวิจัยและนักพัฒนามีส่วนร่วมมากขึ้นเพื่อร่วมกันส่งเสริมความก้าวหน้าของเทคโนโลยีปัญญาประดิษฐ์ เราหวังว่า OpenR จะบรรลุผลลัพธ์ที่สำคัญยิ่งขึ้นในอนาคต และมีส่วนช่วยสร้างระบบ AI ที่ชาญฉลาดยิ่งขึ้น