ดาวน์โหลด Super_MARIO - ดาวน์โหลดซอร์สโค้ด Super

Super_MARIO

ซอร์สโค้ดอื่น ๆ

ดาวน์โหลด

Super MARIO: การควบคุมกระบวนการโดยไม่มีกระบวนการสำหรับการใช้เหตุผล MAth พร้อมเอาต์พุตล่ามรหัส

- ข่าว ?

RI Recruitment หากคุณสนใจในตำแหน่งนักศึกษาฝึกงานด้านการวิจัยด้านการใช้เหตุผลทางคณิตศาสตร์ที่ทีม Qwen โปรดสมัครที่นี่
[2024.06.15] เผยแพร่งานอื่นโดยใช้ประโยชน์จาก MCTS Step-level Value Preference Optimization for Mathematical Reasoning (EMNLP 2024 Findings)
[2024.05.06] เผยแพร่งานของเรา AlphaMath Near Zero: การควบคุมกระบวนการโดยไม่มีกระบวนการ (NeurIPS 2024)
[2023.04.22] เผยแพร่ GitHub ชุดเครื่องมือประเมินทางคณิตศาสตร์ของเราและรายงานที่เกี่ยวข้อง
[2024.01.16] เผยแพร่ผลงานของเรา MARIO (ผลการวิจัย ACL 2024)

นี่คือพื้นที่เก็บข้อมูลอย่างเป็นทางการสำหรับกระดาษ AlphaMath Near Zero: การควบคุมกระบวนการโดยไม่มีกระบวนการ รหัสนี้ดึงมาจากฐานรหัสภายในองค์กรของเรา ด้วยเหตุนี้ อาจมีความแตกต่างเล็กน้อยเมื่อทำซ้ำตัวเลขที่รายงานในรายงานของเรา แต่ตัวเลขเหล่านี้ควรจะใกล้เคียงกันมาก แนวทางของเราเกี่ยวข้องกับการฝึกอบรมโมเดลนโยบายและคุณค่าโดยใช้เพียงการให้เหตุผลทางคณิตศาสตร์ที่ได้รับจากกรอบงาน Monte Carlo Tree Search (MCTS) โดยไม่จำเป็นต้องใช้ GPT-4 หรือคำอธิบายประกอบของมนุษย์ นี่คือตัวอย่างการฝึกอบรมที่สร้างโดย MCTS ในรอบที่ 3

โลภ
สเต็ปบีม
เอ็มซีทีเอส

ด่าน : AlphaMath-7B รอบ 3 ? / AlphaMath-7B รอบ 3 ?

ชุดข้อมูล : AlphaMath-Round3-Trainset ? กระบวนการแก้ไขปัญหาของข้อมูลการฝึกอบรมจะถูกสร้างขึ้นโดยอัตโนมัติตาม MCTS และจุดตรวจสอบในรอบที่ 2 ทั้งตัวอย่างเชิงบวกและเชิงลบรวมอยู่ในการฝึกอบรมโมเดลนโยบายและคุณค่า

รหัสการฝึกอบรม : ตามนโยบาย เราสามารถเปิดเผยรายละเอียดการใช้งานของฟังก์ชันหลักบางอย่างเท่านั้น ซึ่งโดยพื้นฐานแล้วควรได้รับการแก้ไขในรหัสการฝึกอบรมของคุณเอง

การอนุมานชุดข้อมูล MATH

วิธีการอนุมาน	ความแม่นยำ	เฉลี่ย เวลา (s) ต่อ q	เฉลี่ย ขั้นตอน	#โซล
โลภ	53.62	1.6	3.1	1
พ.ต.5	61.84	2.9	2.9	5
ลำแสงระดับขั้น (1,5)	62.32	3.1	3.0	ด้านบน-1
5 รอบ + พ.ค.@5	67.04	x5	x1	5 อันดับแรก-1
ลำแสงระดับขั้น (2,5)	64.66	2.4	2.4	ด้านบน-1
ลำแสงระดับขั้น (3,5)	65.74	2.3	2.2	ด้านบน-1
ลำแสงระดับขั้น (5,5)	65.98	4.7	2.3	ด้านบน-1
1 รอบ + พ.ค.@5	66.54	x1	x1	5 อันดับแรก
5 รอบ + พ.ค.@5	69.94	x5	x1	5 อันดับแรก-1
เอ็มซีทีเอส (N=40)	64.02	10.1	3.8	ด้านบน-1

ใน Step-level Beam (1,5) จะส่งกลับเฉพาะโซลูชันอันดับ 1 เท่านั้น ดังนั้น + Maj@5 ต้องวิ่ง 5 ครั้ง ซึ่งส่งเสริมความหลากหลาย
ใน Step-level Beam (5,5) จะส่งกลับโซลูชัน 5 อันดับแรก ดังนั้น + Maj@5 จึงใช้ผู้สมัครทั้ง 5 คนโดยตรง ซึ่งขาดความหลากหลาย

อุณหภูมิ	0.6	1.0
ลำแสงระดับขั้น (1,5)	62.32	62.76
ลำแสงระดับขั้น (2,5)	64.66	65.60
ลำแสงระดับขั้น (3,5)	65.74	66.28
ลำแสงระดับขั้น (5,5)	65.98	66.38

สำหรับการค้นหาลำแสงระดับขั้น การตั้งค่า temperature=1.0 อาจให้ผลลัพธ์ที่ดีขึ้นเล็กน้อย

การติดตั้ง

ติดตั้ง requirements.txt

 pip install -r requirements.txt

ติดตั้งชุดเครื่องมือประเมินผลเป็นแพ็คเกจ
ติดตั้ง vllm แบบกำหนดเองของเราเพื่อรองรับโมเดลมูลค่า

หรือเพียงทำตาม cmds

 > git clone https://github.com/MARIO-Math-Reasoning/Super_MARIO.git
> git clone https://github.com/MARIO-Math-Reasoning/MARIO_EVAL.git
> git clone https://github.com/MARIO-Math-Reasoning/vllm.git

> cd Super_MARIO && pip install -r requirements.txt && cd ..

> cd MARIO_EVAL/latex2sympy && pip install . && cd ..
> pip install -e .

> cd ../vllm
> pip install -e .

การเริ่มต้นจุดตรวจสอบ

ดาวน์โหลด deepseek-math-7b-base
คุณสามารถใช้ scripts/save_value_head.py เพื่อเพิ่ม value head ให้กับ LLM

การถอดรหัสแบบโลภ

คุณสามารถเรียกใช้ cmds สองตัวต่อไปนี้ได้ อาจมีความแตกต่างเล็กน้อยของความแม่นยำระหว่างทั้งสอง ในเครื่องของเรา อันแรกได้ 53.4% และอันที่สองได้ 53.62%

 python react_batch_demo.py 
--custom_cfg configs/react_sft.yaml 
--qaf ../MARIO_EVAL/data/math_testset_annotation.json

หรือ

 # use step_beam (1, 1) without value func
python solver_demo.py 
--custom_cfg configs/sbs_greedy.yaml 
--qaf ../MARIO_EVAL/data/math_testset_annotation.json

ค้นหาลำแสงระดับขั้นตอน

ในเครื่องของเรา บนชุดทดสอบ MATH cmd ต่อไปนี้ที่มีการกำหนดค่า B1=1, B2=5 สามารถบรรลุ ~62% และอันที่มีการกำหนดค่า B1=3, B2=5 สามารถเข้าถึงได้ ~65%

 python solver_demo.py 
--custom_cfg configs/sbs_sft.yaml 
--qaf ../MARIO_EVAL/data/math_testset_annotation.json

คำนวณความแม่นยำ

 python eval_output_jsonl.py 
--res_file <the saved tree jsonl file by solver_demo.py>

เอ็มซีทีเอส

การฝึกอบรมการสร้างข้อมูล

ต้องระบุ ground_truth (คำตอบสุดท้าย ไม่ใช่กระบวนการแก้ปัญหา) ในไฟล์ qaf json หรือ jsonl (รูปแบบตัวอย่างสามารถอ้างถึง ../MARIO_EVAL/data/math_testset_annotation.json )

รอบที่ 1

 # Checkpoint Initialization is required by adding value head
python solver_demo.py 
--custom_cfg configs/mcts_round1.yaml 
--qaf /path/to/training/data

รอบ > 1 หลัง SFT

 python solver_demo.py 
--custom_cfg configs/mcts_sft_round.yaml 
--qaf /path/to/training/data

การอนุมาน

question เดียวที่จะใช้ในการสร้างโซลูชัน แต่จะใช้ ground_truth ในการคำนวณความแม่นยำ

 python solver_demo.py 
--custom_cfg configs/mcts_sft.yaml 
--qaf ../MARIO_EVAL/data/math_testset_annotation.json

แตกต่างจากการค้นหาลำแสงระดับขั้น คุณต้องสร้างแผนผังที่สมบูรณ์ก่อน จากนั้นคุณควรรัน MCTS ออฟไลน์ จากนั้นจึงคำนวณความแม่นยำ

 python offline_inference.py 
--custom_cfg configs/offline_inference.yaml 
--tree_jsonl <the saved tree jsonl file by solver_demo.py>

หมายเหตุ: สคริปต์การประเมินผลนี้สามารถรันด้วยแผนผังที่บันทึกไว้โดยการค้นหาลำแสงระดับขั้นตอน และความถูกต้องควรยังคงเหมือนเดิม

การประมาณมูลค่า

การกระจายค่า Q สำหรับขั้นตอนขั้นกลางของข้อมูลการฝึกอบรม

เนื่องจากความจริงภาคพื้นดินเป็นที่รู้จักสำหรับข้อมูลการฝึกอบรม คุณค่าของขั้นตอนสุดท้ายคือรางวัล และค่า Q สามารถมาบรรจบกันได้เป็นอย่างดี

การกระจายค่า Q สำหรับทั้งขั้นตอนกลางและขั้นตอนสุดท้ายของข้อมูลการทดสอบ

ในชุดทดสอบ ไม่ทราบความจริงภาคพื้นดิน ดังนั้นการแจกแจงค่า Q จึงมีทั้งขั้นตอนกลางและขั้นตอนสุดท้าย จากรูปนี้เราจะพบว่า

เมื่อการทำนายแบบจำลองถูกต้อง ค่า Q ของมันจะลู่เข้าหากันเป็น 1 ด้วย
สำหรับคำตอบที่มีคำตอบสุดท้ายไม่ถูกต้อง การแจกแจงค่า Q จะครอบคลุม [-1,1] ทั้งหมด เนื่องจากขั้นตอนระหว่างกลางอาจถูกต้อง
เมื่อแบบจำลองคุณค่าเชื่อว่าโซลูชันที่คาดการณ์โดยแบบจำลองนโยบายนั้นไม่ถูกต้อง ค่า Q จะคลัสเตอร์รอบๆ $-1$ -
มีบางกรณีที่ตัวแบบค่าพิจารณาอย่างผิดพลาดว่าวิธีแก้ปัญหาที่ไม่ถูกต้องนั้นถูกต้อง โดยที่ค่า Q มีค่าพีค rouand 1 รูปแบบนี้แสดงถึงกรณีที่ไม่ถูกต้องของตัวแบบค่า

การอ้างอิง

SVPO โดย MCTS

 @misc{chen2024steplevelvaluepreferenceoptimization,
      title={Step-level Value Preference Optimization for Mathematical Reasoning}, 
      author={Guoxin Chen and Minpeng Liao and Chengxi Li and Kai Fan},
      year={2024},
      eprint={2406.10858},
      archivePrefix={arXiv},
      primaryClass={cs.CL},
      url={https://arxiv.org/abs/2406.10858}, 
}

เวอร์ชัน MCTS

 @misc{chen2024alphamathzeroprocesssupervision,
      title={AlphaMath Almost Zero: process Supervision without process}, 
      author={Guoxin Chen and Minpeng Liao and Chengxi Li and Kai Fan},
      year={2024},
      eprint={2405.03553},
      archivePrefix={arXiv},
      primaryClass={cs.CL},
      url={https://arxiv.org/abs/2405.03553}, 
}

ชุดเครื่องมือประเมินผล

 @misc{zhang2024marioevalevaluatemath,
      title={MARIO Eval: Evaluate Your Math LLM with your Math LLM--A mathematical dataset evaluation toolkit}, 
      author={Boning Zhang and Chengxi Li and Kai Fan},
      year={2024},
      eprint={2404.13925},
      archivePrefix={arXiv},
      primaryClass={cs.CL},
      url={https://arxiv.org/abs/2404.13925}, 
}

เวอร์ชัน OVM (แบบจำลองมูลค่าผลลัพธ์)

 @misc{liao2024mariomathreasoningcode,
      title={MARIO: MAth Reasoning with code Interpreter Output -- A Reproducible Pipeline}, 
      author={Minpeng Liao and Wei Luo and Chengxi Li and Jing Wu and Kai Fan},
      year={2024},
      eprint={2401.08190},
      archivePrefix={arXiv},
      primaryClass={cs.CL},
      url={https://arxiv.org/abs/2401.08190}, 
}

ขยาย

ข้อมูลเพิ่มเติม