تنزيل xFinder - تنزيل كود مصدر xFinder

xFinder

كود الذكاء الاصطناعي

v0.2.3 Released!

تنزيل

xFinder: استخراج إجابات قوية ومحددة لنماذج اللغات الكبيرة

كينغتشين يو ^1،* ، زيفان تشنغ ^1،* ، شيشاو سونغ ^2،* ، زيو لي ^1،† ، فييو شيونغ ¹ ، بو تانغ ¹ ، دينغ تشين ¹

¹ معهد أبحاث الخوارزميات المتقدمة، شنغهاي، ² جامعة رنمين الصينية

للاستفسارات التجارية، يرجى الاتصال بنا على [email protected].

من يجب أن يهتم بعملنا؟

إذا كنت تقوم بتطوير معيار ، فيمكنك استخدام xFinder الخاص بنا لاستبدال أساليب RegEx التقليدية لاستخراج الإجابات الرئيسية من استجابات LLM. سيساعدك هذا على تحسين دقة نتائج التقييم، مما يتيح إجراء مقارنات أكثر موثوقية وذات معنى والتحقق من صحة أداء النموذج.
إذا كنت مصممًا لأطر التقييم ، فيمكنك دمج xFinder الخاص بنا في مكون استخراج الإجابات الخاص بإطار العمل الخاص بك لتعزيز قوة وموثوقية عملية التقييم.

مهم

؟ نجم لنا! من خلال تمييز مشروعنا بنجمة على GitHub، ستتلقى جميع إشعارات الإصدار على الفور. نحن نقدر دعمكم!

؟ أخبار

[2024/10] لقد فتحنا مجموعة بيانات KAF وأصدرنا xFinder كحزمة PyPI.
[2024/09] تم دمج xFinder بنجاح في OpenCompass!
[2024/08] قمنا بتحديث xFinder: يدعم النموذج الآن معالجة اللغتين الإنجليزية والصينية.
[2024/05] أصدرنا xFinder: استخراج إجابات قوي ومحدد لنماذج اللغات الكبيرة. تحقق من الورقة.

ملخص

خلاصة

أدى التقدم المستمر في نماذج اللغات الكبيرة (LLMs) إلى زيادة الاهتمام بالمسألة الحاسمة المتمثلة في تطوير أساليب عادلة وموثوقة لتقييم أدائها. على وجه الخصوص، ظهور ظواهر غش ذاتية أو غير ذاتية، مثل تسرب مجموعة الاختبار والتركيب السريع للتنسيق، يشكل تحديات كبيرة أمام التقييم الموثوق به لماجستير القانون. نظرًا لأن أطر التقييم غالبًا ما تستخدم التعبير العادي (RegEx) لاستخراج الإجابات، فقد تقوم بعض النماذج بتعديل استجاباتها لتتوافق مع تنسيقات محددة يمكن استخراجها بسهولة بواسطة RegEx. ومع ذلك، فإن وحدة استخراج الإجابات الرئيسية المستندة إلى RegEx تعاني في كثير من الأحيان من أخطاء الاستخراج. تجري هذه الورقة تحليلاً شاملاً لسلسلة تقييم LLM بأكملها، مما يوضح أن تحسين وحدة استخلاص الإجابات الرئيسية يمكن أن يحسن دقة الاستخراج، ويقلل اعتماد LLM على تنسيقات إجابات محددة، ويعزز موثوقية تقييم LLM. لمعالجة هذه المشكلات، نقترح xFinder، وهو نموذج مصمم خصيصًا لاستخراج الإجابات الرئيسية. وكجزء من هذه العملية، نقوم بإنشاء مجموعة بيانات متخصصة، وهي مجموعة بيانات الباحث عن الإجابة الرئيسية (KAF)، لضمان التدريب والتقييم الفعالين للنماذج. من خلال اختبار التعميم والتقييم في سيناريوهات العالم الحقيقي، توضح النتائج أن أصغر نموذج xFinder يحتوي على 500 مليون معلمة فقط يحقق متوسط دقة استخلاص الإجابات بنسبة 93.42%. في المقابل، تبلغ دقة RegEx في أفضل إطار تقييم 74.38%. يُظهر xFinder قوة أقوى ودقة أعلى مقارنة بأطر التقييم الحالية.

نلخص مساهماتنا الأساسية على النحو التالي:

نحن نقدم مراجعة شاملة لعمليات تقييم LLM في الصناعة، مع تحديد العوامل الحاسمة التي يمكن أن تؤدي إلى نتائج تقييم غير موثوقة.
نقدم لك xFinder، وهو نموذج مصمم خصيصًا لاستخراج الإجابات الرئيسية. تدعم مجموعة بيانات KAF التدريب والتقييم الفعال.
في تجاربنا المكثفة، أثبتنا أن طرق التقييم المستندة إلى RegEx غير موثوقة، بينما يعمل نموذج xFinder الخاص بنا على تحسين الموثوقية بشكل كبير.

كما هو موضح في الشكل، يتم توضيح الحالات التي فشلت فيها أطر التقييم مثل LM Eval Harness وOpenCompass في استخراج الإجابات الرئيسية. على وجه التحديد، تمثل A/T/C/M المهام ذات الأبجدية / النص القصير / التسمية الفئوية / خيارات الرياضيات، على التوالي.

بداية سريعة

إنشاء مجموعة بيانات معيارية : لتبسيط عملية التقييم باستخدام xFinder، قمنا بتوحيد مجموعات بيانات معيارية متعددة في تنسيق JSON موحد. للحصول على تفاصيل التنفيذ، راجع create_benchmark_dataset.py. إذا كنت ترغب في تقييم مجموعات البيانات الخاصة بك باستخدام xFinder، فيرجى الرجوع إلى قالب البرنامج النصي المتوفر لدينا Benchmark_dataset_template.py للحصول على إرشادات تحويل التنسيق.
قم بإعداد أزواج ضمان الجودة ومخرجات LLM : اجمع مخرجات LLM التي ترغب في تقييمها. تأكد من أن بياناتك تتضمن العناصر التالية:
- السؤال الأصلي
- نوع الإجابة الرئيسية (الخيارات: الأبجدية، النص القصير، التصنيف_الفئوي، الرياضيات)
- مخرجات LLM
- نطاق الإجابة القياسي
نشر نموذج xFinder : حدد أحد النماذج التالية للنشر:
- xFinder-qwen1505
- xFinder-llama38it

بعد نشر نموذج xFinder، اتبع الخطوات التالية لتشغيل التقييم:

 # Install xfinder
conda create -n xfinder_env python=3.10 -y
conda activate xfinder_env
pip install xfinder

# Perform an evaluation with xFinder (a built-in example)
CUDA_VISIBLE_DEVICES=0 python -m xfinder.eval --run-example --model-name xFinder-qwen1505 --inference-mode local --model-path-or-url /path/to/anonymized/model/xFinder-qwen1505

يدعم xFinder شكلين من التقييم

تقييم دفعة من النتائج التجريبية الملخصة

تتيح لك هذه الطريقة تقييم الأمثلة المتعددة المخزنة في ملف JSON.

 # Initialize Evaluator object
evaluator = Evaluator (
    model_name = "xFinder-qwen1505" ,   # Model name
    inference_mode = "api" ,            # Inference mode, 'local' or 'api'
    model_path_or_url = "http://your-anonymized-url/generate" ,  # Anonymized model path or URL
)
# Perform batch evaluation
data_path = "/path/to/your/data/example.json"  # User needs to provide their own data path
accuracy = evaluator . evaluate ( data_path )

print ( f"Batch evaluation accuracy: { accuracy } " )

؟ وضع تقييم المثيل الواحد

تتيح لك هذه الطريقة تقييم الأمثلة الفردية، والتي يمكن دمجها في إطار تقييم LLM.

 # Initialize Evaluator object
evaluator = Evaluator (
    model_name = "xFinder-qwen1505" ,   # Model name
    inference_mode = "local" ,            # Inference mode, 'local' or 'api'
    model_path_or_url = "IAAR-Shanghai/xFinder-qwen1505" ,  # Anonymized model path or URL
)
# Define input for a single evaluation
question = "What is the capital of France?"
llm_output = "The capital of France is Paris."
standard_answer_range = "[ " Paris " , " Lyon " , " Marseille " ]"
key_answer_type = "short_text"
correct_answer = "Paris"
# Perform single example evaluation
result = evaluator . evaluate_single_example (
    question ,
    llm_output ,
    standard_answer_range ,
    key_answer_type ,
    correct_answer
)

نصيحة

ارجع إلى demo.ipynb للحصول على أمثلة أكثر تفصيلاً.
قم بتشغيل export HF_ENDPOINT=https://hf-mirror.com لاستخدام المرآة الصينية إذا لم تتمكن من الاتصال بـ Hugging Face.
يدعم xFinder حاليًا التحميل عبر طريقة API المنشورة بواسطة vllm.
نحن نقدم برامج نصية لضبط xFinder في xfinder_training.

أمثلة: RegEx مقابل xFinder

نعرض أمثلة عبر أربعة أنواع من الأسئلة حيث يفشل RegEx في استخراج الإجابات غير الصحيحة أو يستخرجها بشكل متكرر، بينما يستخرج xFinder الإجابات الرئيسية بدقة.

{
    "key_answer_type" : " alphabet option " ,
    "question" : " A man is seen playing guitar on a stage with others playing instruments behind him. The man grabs a guitar from the audience and begins playing both one after the other ... " ,
    "llm_output" : " Option A is the correct choice as it describes ... " ,
    "standard_answer_range" : " [['A', 'strums the guitar in the end, continues playing the guitar with the crowd following him as well as lining up next to him.'], ['B', 'continues playing the instruments and ends by waving to the crowd and walking off stage.'], ['C', 'then turns to the audience and gives a stuffed toy to the audience and continues playing.'], ['D', 'finally stops playing and moves his hands for the crowd to see.']] " ,
    "gold_label" : " A " ,
    "xFinder_output" : " A " ,
},
{
    "key_answer_type" : " short text " ,
    "question" : " If you really wanted a grape, where would you go to get it? Answer Choices: winery / fruit stand / field / kitchen / food " ,
    "llm_output" : " The answer is winery / fruit stand / field / kitchen / food ... " ,
    "standard_answer_range" : " [ " winery " , " fruit stand " , " field " , " kitchen " , " food " ] " ,
    "gold_label" : " [No valid answer] " ,
    "xFinder_output" : " [No valid answer] " ,
},
{
    "key_answer_type" : " categorical label " ,
    "question" : " How tall is the Sears Building ? " ,
    "llm_output" : " The Sears Building is a specific structure, so the answer would be a Location ... " ,
    "standard_answer_range" : " ['Abbreviation', 'Entity', 'Description', 'Person', 'Location', 'Number'] " ,
    "gold_label" : " Location " ,
    "xFinder_output" : " Location " ,
},
{
    "key_answer_type" : " math " ,
    "question" : " Mike made 69 dollars mowing lawns over the summer. If he spent 24 dollars buying new mower blades, how many 5 dollar games could he buy with the money he had left? " ,
    "llm_output" : " To find out how many 5 dollar ... Let's calculate that: nn $45 / $5 = 9 nn So, Mike could buy 9 5 dollar games with the money he had left. " ,
    "standard_answer_range" : " a(n) number / set / vector / matrix / interval / expression / function / equation / inequality " ,
    "gold_label" : " 9 " ,
    "xFinder_output" : " 9 " ,
}

نتائج دقة الاستخراج

خط الأساس : OpenCompass، LM Eval Harness، UltraEval، GPT-4. طريقتنا : xFinder-qwen1505، xFinder-qwen1518، xFinder-gemma7، xFinder-chatglm36base، xFinder-llama38، xFinder-llama38it.

قمنا بتقييم دقتها في استخراج الإجابات الرئيسية من كل من مجموعة اختبار KAF ومجموعات التعميم. المقياس الموجود في الجدول هو الدقة.

الاقتباس

 @article{xFinder,
      title={xFinder: Robust and Pinpoint Answer Extraction for Large Language Models}, 
      author={Qingchen Yu and Zifan Zheng and Shichao Song and Zhiyu Li and Feiyu Xiong and Bo Tang and Ding Chen},
      journal={arXiv preprint arXiv:2405.11874},
      year={2024},
}