ทีมงาน Shanghai AI Lab ได้เปิดแหล่งที่มาของโครงการ O1 เวอร์ชัน LLAMA ซึ่งเป็นโครงการแบบจำลองโอเพ่นซอร์สสำหรับเครื่องมือแก้ปัญหา OpenAI Olympiad O1 โครงการใช้เทคโนโลยีขั้นสูงเช่น Monte Carlo Tree Search และการเรียนรู้การเสริมแรงเพื่อให้ได้ผลลัพธ์ที่น่าทึ่งในการตอบคำถามโอลิมปิกคณิตศาสตร์และประสิทธิภาพของมันก็เกินกว่าโซลูชั่นปิดแหล่งข้อมูลเชิงพาณิชย์ โอเพ่นซอร์สของโครงการให้ทรัพยากรการเรียนรู้ที่มีคุณค่าแก่นักพัฒนาซอฟต์แวร์และมูลนิธิการวิจัยและยังส่งเสริมการพัฒนาเพิ่มเติมของการประยุกต์ใช้ปัญญาประดิษฐ์ในสาขาคณิตศาสตร์ โครงการนี้รวมถึงชุดข้อมูลที่ผ่านการฝึกอบรมมาก่อนโมเดลที่ผ่านการฝึกอบรมมาก่อนและรหัสการฝึกอบรมการเรียนรู้การเสริมแรง ฯลฯ และใช้เทคโนโลยีการเพิ่มประสิทธิภาพที่หลากหลายรวมถึง LORA และ PPO โดยมีวัตถุประสงค์เพื่อปรับปรุงความสามารถของแบบจำลองในการใช้เหตุผลทางคณิตศาสตร์
เมื่อเร็ว ๆ นี้ทีมงาน Shanghai AI Lab เปิดตัวโครงการ O1 เวอร์ชัน LLAMA โดยมีวัตถุประสงค์เพื่อทำซ้ำเครื่องมือแก้ปัญหาโอลิมปิกของ OpenAi O1 โครงการใช้เทคโนโลยีขั้นสูงที่หลากหลายรวมถึงการค้นหาต้นไม้ Monte Carlo การเรียนรู้การเสริมแรงเล่นด้วยตนเอง PPO และกระบวนทัศน์กลยุทธ์คู่ของ Alphago Zero ซึ่งดึงดูดความสนใจอย่างกว้างขวางจากชุมชนนักพัฒนา
นานก่อนที่จะมีการเปิดตัวซีรีส์ O1 ของ Openai ทีมงาน Shanghai AI Lab เริ่มสำรวจการใช้การค้นหาต้นไม้ Monte Carlo Tree เพื่อปรับปรุงความสามารถทางคณิตศาสตร์ของโมเดลขนาดใหญ่ หลังจากการเปิดตัว O1 ทีมได้อัพเกรดอัลกอริทึมต่อไปโดยมุ่งเน้นไปที่ปัญหาคณิตศาสตร์โอลิมปิกและพัฒนาเป็นเวอร์ชันโอเพนซอร์ซของโครงการ Openai Strawberry
เพื่อปรับปรุงประสิทธิภาพของแบบจำลอง Llama ในปัญหาทางคณิตศาสตร์โอลิมปิกทีมงานได้นำกลยุทธ์การเพิ่มประสิทธิภาพแบบจับคู่ไว้นั่นคือไม่ให้คะแนนแน่นอนของคำตอบโดยตรง แต่เปรียบเทียบข้อดีและข้อเสียของคำตอบทั้งสอง ด้วยวิธีการนี้พวกเขามีความคืบหน้าอย่างมีนัยสำคัญในมาตรฐาน AIME 2024 ที่ยากที่สุด ในบรรดาคำถามทดสอบ 30 ข้อโมเดลที่ได้รับการปรับปรุงนั้นทำอย่างถูกต้อง 8 ในขณะที่โมเดล LLAMA-3.1-8B-Instruct ดั้งเดิมนั้นทำอย่างถูกต้อง 2 ความสำเร็จนี้มีประสิทธิภาพสูงกว่าโซลูชันการปิดแหล่งข้อมูลเชิงพาณิชย์อื่น ๆ นอกเหนือจาก O1-Preview และ O1-MINI
ในตอนท้ายของเดือนตุลาคมทีมได้ประกาศความคืบหน้าอย่างมีนัยสำคัญในการจำลอง OpenAI O1 ตามสถาปัตยกรรมอัลฟาโกเป็นศูนย์โดยประสบความสำเร็จในการอนุญาตให้โมเดลได้รับความสามารถในการคิดขั้นสูงผ่านการโต้ตอบกับแผนผังการค้นหาในระหว่างกระบวนการเรียนรู้โดยไม่มีคำอธิบายประกอบด้วยตนเอง ในเวลาน้อยกว่าหนึ่งสัปดาห์โครงการเปิดออก
ในปัจจุบันเนื้อหาโอเพ่นซอร์สของเวอร์ชัน LLAMA O1 รวมถึง: ชุดข้อมูลที่ผ่านการฝึกอบรมมาแล้วแบบจำลองที่ผ่านการฝึกอบรมมาก่อนและรหัสการฝึกอบรมการเรียนรู้เสริมแรง ในหมู่พวกเขาชุดข้อมูล "OpenLongCot-Pretrain" มีข้อมูลห่วงโซ่การคิดระยะยาวมากกว่า 100,000 ข้อมูลแต่ละข้อมูลมีกระบวนการให้เหตุผลทางคณิตศาสตร์ที่สมบูรณ์รวมถึงเนื้อหาการคิดการให้คะแนนผลลัพธ์คำอธิบายปัญหาพิกัดกราฟกระบวนการคำนวณการหักข้อสรุปและอื่น ๆ การเชื่อมโยงการอนุมานที่สมบูรณ์เช่นเดียวกับการวิจารณ์และการตรวจสอบของแต่ละขั้นตอนการอนุมานให้การประเมินและคำแนะนำสำหรับกระบวนการอนุมาน หลังจากการฝึกอบรมล่วงหน้าในชุดข้อมูลนี้ต่อไปโมเดลสามารถอ่านและส่งออกกระบวนการห่วงโซ่ความคิดที่ยาวนานเช่น O1
แม้ว่าโครงการนี้จะเรียกว่า LLAMA-O1 แต่รูปแบบที่ได้รับการฝึกอบรมมาก่อนโดยเจ้าหน้าที่จะขึ้นอยู่กับ Gemma2 ของ Google จากรูปแบบที่ผ่านการฝึกอบรมมาก่อนนักพัฒนาสามารถดำเนินการฝึกอบรมการเรียนรู้เสริมแรงต่อไป กระบวนการฝึกอบรมรวมถึงการใช้ Monte Carlo Tree สำหรับเกมเพื่อสร้างประสบการณ์; เทคโนโลยีที่สำคัญบางอย่างยังใช้ในรหัสการฝึกอบรมรวมถึงการใช้ LORA สำหรับการปรับแต่งพารามิเตอร์ที่มีประสิทธิภาพโดยใช้อัลกอริทึม PPO เป็นวิธีการเพิ่มประสิทธิภาพกลยุทธ์การใช้อัลกอริทึม GAE สำหรับการคำนวณฟังก์ชั่นที่ได้เปรียบและใช้การเล่นประสบการณ์ลำดับความสำคัญเพื่อปรับปรุงประสิทธิภาพการฝึกอบรม
เป็นที่น่าสังเกตว่ารหัส LLAMA-O1 ได้รับการตีพิมพ์ภายใต้บัญชี GitHub ที่เรียกว่า SimpleBerry จากบัญชีที่เกี่ยวข้องกับ SimpleBerry อื่น ๆ และข้อมูลเว็บไซต์อย่างเป็นทางการจะเห็นได้ว่าธรรมชาติของมันเป็นห้องปฏิบัติการวิจัย แต่ไม่มีข้อมูลเพิ่มเติมเกี่ยวกับทิศทางการวิจัย
นอกเหนือจาก LLAMA-O1 แล้วโครงการจำลอง O1 ที่ดำเนินการต่อสาธารณะอีกโครงการหนึ่งคือ O1-Journey จากทีมมหาวิทยาลัยเซี่ยงไฮ้ Jiaotong ทีมออกรายงานความคืบหน้าครั้งแรกในต้นเดือนตุลาคมแนะนำกระบวนทัศน์การเรียนรู้การเดินทางที่เป็นนวัตกรรมและรูปแบบแรกที่ประสบความสำเร็จในการรวมการค้นหาและการเรียนรู้เข้ากับการใช้เหตุผลทางคณิตศาสตร์ ทีมพัฒนาหลักของ O1-Journey ส่วนใหญ่ประกอบด้วยนักศึกษาระดับมัธยมศึกษาตอนต้นและอาวุโสที่มหาวิทยาลัยเซี่ยงไฮ้ Jiaotong รวมถึงนักศึกษาปริญญาเอกปีแรกจากห้องปฏิบัติการ Gair (ห้องปฏิบัติการวิจัยปัญญาประดิษฐ์ทั่วไป) ที่มหาวิทยาลัยเซี่ยงไฮ้ Jiaotong
ที่อยู่กระดาษ: https://arxiv.org/pdf/2410.02884
https://arxiv.org/pdf/2406.07394
แหล่งโอเพ่นซอร์สของโครงการ LLAMA เวอร์ชัน O1 นับเป็นความคืบหน้าสำคัญในสาขาการแก้ปัญหาคณิตศาสตร์ AI และยังเป็นรากฐานที่แข็งแกร่งสำหรับการวิจัยและการใช้งานเพิ่มเติม เราหวังว่าจะได้รับความสำเร็จที่เป็นนวัตกรรมมากขึ้นตามโครงการนี้ในอนาคต