ดาวน์โหลด xFinder - ดาวน์โหลดซอร์สโค้ด xFinder

xFinder

โค้ดแหล่งที่มา AI

v0.2.3 Released!

ดาวน์โหลด

xFinder: การแยกคำตอบที่แม่นยำและแม่นยำสำหรับโมเดลภาษาขนาดใหญ่

ชิงเฉิน อวี่ ^1,* , ซีฟาน เจิ้ง ^1,* , ซือเชา ซ่ง ^2,* , จือหยู หลี่ ^1,† , เฟยหยู่ซีออง ¹ , ป๋อถัง ¹ , ดิงเฉิน ¹

¹ สถาบันวิจัยอัลกอริทึมขั้นสูง, เซี่ยงไฮ้, ² มหาวิทยาลัยเหรินหมินแห่งประเทศจีน

หากมีข้อสงสัยเกี่ยวกับธุรกิจ โปรดติดต่อเราที่ [email protected]

ใครควรให้ความสนใจกับงานของเรา?

หากคุณกำลังพัฒนาเกณฑ์มาตรฐาน คุณสามารถใช้ xFinder ของเราเพื่อแทนที่วิธี RegEx แบบเดิมเพื่อแยกคำตอบที่สำคัญจากการตอบกลับ LLM สิ่งนี้จะช่วยให้คุณปรับปรุงความแม่นยำของผลการประเมินของคุณ ช่วยให้การเปรียบเทียบและการตรวจสอบความถูกต้องของประสิทธิภาพของแบบจำลองเชื่อถือได้และมีความหมายมากขึ้น
หากคุณเป็นผู้ออกแบบกรอบการประเมิน คุณสามารถรวม xFinder ของเราเข้ากับองค์ประกอบการแยกคำตอบของกรอบงานของคุณ เพื่อเพิ่มความแข็งแกร่งและความน่าเชื่อถือของกระบวนการประเมิน

สำคัญ

- ติดดาวเรา! ด้วยการนำโปรเจ็กต์ของเราไปแสดงบน GitHub คุณจะได้รับการแจ้งเตือนการเปิดตัวทั้งหมดทันที ขอขอบคุณสำหรับการสนับสนุนของคุณ!

- ข่าว

[10/2024] เราได้เปิดชุดข้อมูล KAF แบบโอเพ่นซอร์สและเผยแพร่ xFinder เป็นแพ็คเกจ PyPI
[2024/09] xFinder ได้รับการรวมเข้ากับ OpenCompass เรียบร้อยแล้ว!
[2024/08] เราได้อัปเดต xFinder: ขณะนี้โมเดลรองรับการประมวลผลทั้งภาษาอังกฤษและภาษาจีน
[2024/05] เราได้เปิดตัว xFinder: การแยกคำตอบที่แม่นยำและแข็งแกร่งสำหรับโมเดลภาษาขนาดใหญ่ ตรวจสอบกระดาษ

ภาพรวม

เชิงนามธรรม

ความก้าวหน้าอย่างต่อเนื่องของโมเดลภาษาขนาดใหญ่ (LLM) ได้เพิ่มความสนใจไปที่ประเด็นสำคัญในการพัฒนาวิธีการที่ยุติธรรมและเชื่อถือได้ในการประเมินประสิทธิภาพของพวกเขา โดยเฉพาะอย่างยิ่ง การเกิดขึ้นของปรากฏการณ์การโกงทั้งแบบส่วนตัวและแบบไม่ใช่แบบส่วนตัว เช่น การรั่วไหลของชุดทดสอบและการจัดรูปแบบมากเกินไปโดยทันที ก่อให้เกิดความท้าทายที่สำคัญต่อการประเมิน LLM ที่เชื่อถือได้ เนื่องจากเฟรมเวิร์กการประเมินมักใช้ Regular Expression (RegEx) สำหรับการดึงคำตอบ โมเดลบางรุ่นอาจปรับการตอบสนองเพื่อให้สอดคล้องกับรูปแบบเฉพาะที่ RegEx สามารถดึงข้อมูลได้ง่าย อย่างไรก็ตาม โมดูลการแยกคำตอบหลักที่ใช้ RegEx มักประสบปัญหาข้อผิดพลาดในการแยกข้อมูล บทความนี้ดำเนินการวิเคราะห์ที่ครอบคลุมของห่วงโซ่การประเมิน LLM ทั้งหมด โดยแสดงให้เห็นว่าการปรับโมดูลการแยกคำตอบหลักให้เหมาะสมสามารถปรับปรุงความแม่นยำในการแยก ลดการพึ่งพา LLM ในรูปแบบคำตอบเฉพาะ และเพิ่มความน่าเชื่อถือของการประเมิน LLM เพื่อแก้ไขปัญหาเหล่านี้ เราขอเสนอ xFinder ซึ่งเป็นโมเดลที่ออกแบบมาเพื่อการแยกคำตอบที่สำคัญโดยเฉพาะ ในส่วนหนึ่งของกระบวนการนี้ เราได้สร้างชุดข้อมูลพิเศษ ซึ่งก็คือชุดข้อมูล Key Answer Finder (KAF) เพื่อให้มั่นใจว่าการฝึกอบรมโมเดลและการประเมินมีประสิทธิภาพ ผ่านการทดสอบและประเมินผลโดยทั่วไปในสถานการณ์จริง ผลลัพธ์แสดงให้เห็นว่ารุ่น xFinder ที่เล็กที่สุดซึ่งมีพารามิเตอร์เพียง 500 ล้านพารามิเตอร์ได้รับความแม่นยำในการแยกคำตอบโดยเฉลี่ยที่ 93.42% ในทางตรงกันข้าม ความแม่นยำของ RegEx ในกรอบการประเมินที่ดีที่สุดคือ 74.38% xFinder มีความแข็งแกร่งกว่าและมีความแม่นยำสูงกว่าเมื่อเปรียบเทียบกับเฟรมเวิร์กการประเมินที่มีอยู่

เราสรุปการมีส่วนร่วมหลักของเราดังนี้:

เราจัดให้มีการทบทวนกระบวนการประเมิน LLM ในอุตสาหกรรมอย่างครอบคลุม โดยระบุปัจจัยสำคัญที่อาจนำไปสู่ผลการประเมินที่ไม่น่าเชื่อถือ
เราขอแนะนำ xFinder ซึ่งเป็นโมเดลที่ออกแบบมาเพื่อการแยกคำตอบที่สำคัญโดยเฉพาะ ชุดข้อมูล KAF สนับสนุนการฝึกอบรมและการประเมินผลที่มีประสิทธิภาพ
ในการทดลองที่ครอบคลุมของเรา เราแสดงให้เห็นว่าวิธีการประเมินที่ใช้ RegEx นั้นไม่น่าเชื่อถือ ในขณะที่โมเดล xFinder ของเราปรับปรุงความน่าเชื่อถือได้อย่างมาก

ดังที่แสดงในภาพ ตัวอย่างที่เฟรมเวิร์กการประเมิน เช่น LM Eval Harness และ OpenCompass ไม่สามารถแยกคำตอบที่สำคัญได้จะถูกแสดงให้เห็น โดยเฉพาะ A/T/C/M เป็นตัวแทนงานด้วยตัวเลือกตัวอักษร / ข้อความสั้น / ป้ายหมวดหมู่ / คณิตศาสตร์ ตามลำดับ

เริ่มต้นอย่างรวดเร็ว

สร้างชุดข้อมูลเบนช์มาร์ก : เพื่อปรับปรุงกระบวนการประเมินผลโดยใช้ xFinder เราได้กำหนดมาตรฐานชุดข้อมูลเบนช์มาร์กกระแสหลักต่างๆ ให้อยู่ในรูปแบบ JSON แบบรวม สำหรับรายละเอียดการใช้งาน โปรดดูที่ create_benchmark_dataset.py หากคุณต้องการประเมินชุดข้อมูลของคุณเองโดยใช้ xFinder โปรดดูเทมเพลตสคริปต์benchmark_dataset_template.py ที่เราให้ไว้สำหรับคำแนะนำในการแปลงรูปแบบ
เตรียมคู่ QA และเอาต์พุต LLM : รวบรวมเอาต์พุต LLM ที่คุณต้องการประเมิน ตรวจสอบให้แน่ใจว่าข้อมูลของคุณมีองค์ประกอบต่อไปนี้:
- คำถามเดิม
- ประเภทคำตอบที่สำคัญ (ตัวเลือก: ตัวอักษร, short_text, categorical_label, คณิตศาสตร์)
- เอาท์พุท LLM
- ช่วงคำตอบมาตรฐาน
ปรับใช้โมเดล xFinder : เลือกหนึ่งในโมเดลต่อไปนี้เพื่อใช้งาน:
- xFinder-qwen1505
- xFinder-llama38it

หลังจากปรับใช้โมเดล xFinder แล้ว ให้ทำตามขั้นตอนเหล่านี้เพื่อรันการประเมิน:

 # Install xfinder
conda create -n xfinder_env python=3.10 -y
conda activate xfinder_env
pip install xfinder

# Perform an evaluation with xFinder (a built-in example)
CUDA_VISIBLE_DEVICES=0 python -m xfinder.eval --run-example --model-name xFinder-qwen1505 --inference-mode local --model-path-or-url /path/to/anonymized/model/xFinder-qwen1505

xFinder รองรับการประเมินสองรูปแบบ

การประเมินผลการทดลองสรุปเป็นชุด

เมธอดนี้ช่วยให้คุณประเมินตัวอย่างต่างๆ ที่จัดเก็บไว้ในไฟล์ JSON ได้

 # Initialize Evaluator object
evaluator = Evaluator (
    model_name = "xFinder-qwen1505" ,   # Model name
    inference_mode = "api" ,            # Inference mode, 'local' or 'api'
    model_path_or_url = "http://your-anonymized-url/generate" ,  # Anonymized model path or URL
)
# Perform batch evaluation
data_path = "/path/to/your/data/example.json"  # User needs to provide their own data path
accuracy = evaluator . evaluate ( data_path )

print ( f"Batch evaluation accuracy: { accuracy } " )

- โหมดการประเมินอินสแตนซ์เดี่ยว

วิธีการนี้ช่วยให้คุณสามารถประเมินแต่ละตัวอย่าง ซึ่งสามารถรวมเข้ากับกรอบงานการประเมิน LLM ได้

 # Initialize Evaluator object
evaluator = Evaluator (
    model_name = "xFinder-qwen1505" ,   # Model name
    inference_mode = "local" ,            # Inference mode, 'local' or 'api'
    model_path_or_url = "IAAR-Shanghai/xFinder-qwen1505" ,  # Anonymized model path or URL
)
# Define input for a single evaluation
question = "What is the capital of France?"
llm_output = "The capital of France is Paris."
standard_answer_range = "[ " Paris " , " Lyon " , " Marseille " ]"
key_answer_type = "short_text"
correct_answer = "Paris"
# Perform single example evaluation
result = evaluator . evaluate_single_example (
    question ,
    llm_output ,
    standard_answer_range ,
    key_answer_type ,
    correct_answer
)

เคล็ดลับ

อ้างถึง demo.ipynb สำหรับตัวอย่างโดยละเอียดเพิ่มเติม
เรียกใช้ export HF_ENDPOINT=https://hf-mirror.com เพื่อใช้มิเรอร์ภาษาจีน หากคุณไม่สามารถเชื่อมต่อกับ Hugging Face ได้
ปัจจุบัน xFinder รองรับการโหลดผ่านวิธี API ที่ vllm ปรับใช้
เราจัดทำสคริปต์สำหรับการปรับแต่ง xFinder ใน xfinder_training

ตัวอย่าง: RegEx กับ xFinder

เราสาธิตตัวอย่างคำถามสี่ประเภทที่ RegEx ไม่สามารถแยกคำตอบหรือแยกคำตอบที่ไม่ถูกต้องบ่อยครั้ง ในขณะที่ xFinder แยกคำตอบที่สำคัญอย่างแม่นยำ

{
    "key_answer_type" : " alphabet option " ,
    "question" : " A man is seen playing guitar on a stage with others playing instruments behind him. The man grabs a guitar from the audience and begins playing both one after the other ... " ,
    "llm_output" : " Option A is the correct choice as it describes ... " ,
    "standard_answer_range" : " [['A', 'strums the guitar in the end, continues playing the guitar with the crowd following him as well as lining up next to him.'], ['B', 'continues playing the instruments and ends by waving to the crowd and walking off stage.'], ['C', 'then turns to the audience and gives a stuffed toy to the audience and continues playing.'], ['D', 'finally stops playing and moves his hands for the crowd to see.']] " ,
    "gold_label" : " A " ,
    "xFinder_output" : " A " ,
},
{
    "key_answer_type" : " short text " ,
    "question" : " If you really wanted a grape, where would you go to get it? Answer Choices: winery / fruit stand / field / kitchen / food " ,
    "llm_output" : " The answer is winery / fruit stand / field / kitchen / food ... " ,
    "standard_answer_range" : " [ " winery " , " fruit stand " , " field " , " kitchen " , " food " ] " ,
    "gold_label" : " [No valid answer] " ,
    "xFinder_output" : " [No valid answer] " ,
},
{
    "key_answer_type" : " categorical label " ,
    "question" : " How tall is the Sears Building ? " ,
    "llm_output" : " The Sears Building is a specific structure, so the answer would be a Location ... " ,
    "standard_answer_range" : " ['Abbreviation', 'Entity', 'Description', 'Person', 'Location', 'Number'] " ,
    "gold_label" : " Location " ,
    "xFinder_output" : " Location " ,
},
{
    "key_answer_type" : " math " ,
    "question" : " Mike made 69 dollars mowing lawns over the summer. If he spent 24 dollars buying new mower blades, how many 5 dollar games could he buy with the money he had left? " ,
    "llm_output" : " To find out how many 5 dollar ... Let's calculate that: nn $45 / $5 = 9 nn So, Mike could buy 9 5 dollar games with the money he had left. " ,
    "standard_answer_range" : " a(n) number / set / vector / matrix / interval / expression / function / equation / inequality " ,
    "gold_label" : " 9 " ,
    "xFinder_output" : " 9 " ,
}

ผลลัพธ์ความแม่นยำในการสกัด

พื้นฐาน : OpenCompass, LM Eval Harness, UltraEval, GPT-4 วิธีการของเรา : xFinder-qwen1505, xFinder-qwen1518, xFinder-gemma7, xFinder-chatglm36base, xFinder-llama38, xFinder-llama38it

เราประเมินความแม่นยำในการแยกคำตอบที่สำคัญจากทั้งชุดทดสอบ KAF และชุดลักษณะทั่วไป ตัวชี้วัดในตารางมีความแม่นยำ

การอ้างอิง

 @article{xFinder,
      title={xFinder: Robust and Pinpoint Answer Extraction for Large Language Models}, 
      author={Qingchen Yu and Zifan Zheng and Shichao Song and Zhiyu Li and Feiyu Xiong and Bo Tang and Ding Chen},
      journal={arXiv preprint arXiv:2405.11874},
      year={2024},
}