Téléchargement xFinder - Téléchargement du code source xFinder

xFinder

Code Source AI

v0.2.3 Released!

Télécharger

xFinder : Extraction de réponses robuste et précise pour les grands modèles de langage

Qingchen Yu ^1,* , Zifan Zheng ^1,* , Shichao Song ^2,* , Zhiyu Li ^1,† , Feiyu Xiong ¹ , Bo Tang ¹ , Ding Chen ¹

¹ Institut de recherche sur les algorithmes avancés, Shanghai, ² Université Renmin de Chine

Pour toute demande commerciale, veuillez nous contacter à [email protected].

Qui devrait prêter attention à notre travail ?

Si vous développez un Benchmark , vous pouvez utiliser notre xFinder pour remplacer les méthodes RegEx traditionnelles pour extraire les réponses clés des réponses LLM. Cela vous aidera à améliorer la précision de vos résultats d’évaluation, permettant des comparaisons et une validation plus fiables et significatives des performances du modèle.
Si vous êtes un concepteur de cadres d'évaluation , vous pouvez intégrer notre xFinder dans le composant d'extraction de réponses de votre cadre pour améliorer la robustesse et la fiabilité du processus d'évaluation.

Important

? Mettez-nous en vedette ! En mettant notre projet en vedette sur GitHub, vous recevrez instantanément toutes les notifications de publication. Nous apprécions votre soutien !

? Nouvelles

[2024/10] Nous avons open source l'ensemble de données KAF et publié xFinder en tant que package PyPI.
[2024/09] xFinder a été intégré avec succès dans OpenCompass !
[2024/08] Nous avons mis à jour xFinder : le modèle prend désormais en charge le traitement de l'anglais et du chinois.
[2024/05] Nous avons publié xFinder : Extraction de réponses robuste et précise pour les grands modèles de langage. Consultez le journal.

Aperçu

Abstrait

L'avancement continu des grands modèles de langage (LLM) a attiré une attention croissante sur la question cruciale du développement de méthodes justes et fiables pour évaluer leurs performances. En particulier, l'émergence de phénomènes de triche subjectifs ou non subjectifs, tels que la fuite des ensembles de tests et le surajustement du format d'invite, pose des défis importants pour l'évaluation fiable des LLM. Étant donné que les cadres d'évaluation utilisent souvent l'expression régulière (RegEx) pour l'extraction des réponses, certains modèles peuvent ajuster leurs réponses pour se conformer à des formats spécifiques facilement extractibles par RegEx. Néanmoins, le module d’extraction de réponses clés basé sur RegEx souffre fréquemment d’erreurs d’extraction. Cet article effectue une analyse complète de l'ensemble de la chaîne d'évaluation LLM, démontrant que l'optimisation du module d'extraction des réponses clés peut améliorer la précision de l'extraction, réduire la dépendance des LLM à l'égard de formats de réponse spécifiques et améliorer la fiabilité de l'évaluation LLM. Pour répondre à ces problématiques, nous proposons xFinder, un modèle spécifiquement conçu pour l'extraction de réponses clés. Dans le cadre de ce processus, nous créons un ensemble de données spécialisé, l'ensemble de données Key Answer Finder (KAF), pour garantir une formation et une évaluation efficaces du modèle. Grâce à des tests de généralisation et à une évaluation dans des scénarios réels, les résultats démontrent que le plus petit modèle xFinder avec seulement 500 millions de paramètres atteint une précision moyenne d'extraction de réponses de 93,42 %. En revanche, la précision RegEx dans le meilleur cadre d'évaluation est de 74,38 %. xFinder présente une plus grande robustesse et une plus grande précision par rapport aux cadres d'évaluation existants.

Nous résumons nos principales contributions comme suit :

Nous fournissons un examen complet des processus d'évaluation LLM dans l'industrie, identifiant les facteurs critiques pouvant conduire à des résultats d'évaluation peu fiables.
Nous présentons xFinder, un modèle spécialement conçu pour l'extraction de réponses clés. L’ensemble de données KAF soutient sa formation et son évaluation efficaces.
Dans nos expériences approfondies, nous démontrons que les méthodes d'évaluation basées sur RegEx ne sont pas fiables, tandis que notre modèle xFinder améliore considérablement la fiabilité.

Comme le montre la figure, les cas où les cadres d'évaluation tels que LM Eval Harness et OpenCompass n'ont pas réussi à extraire les réponses clés sont illustrés. Plus précisément, A/T/C/M représentent respectivement des tâches avec des options alphabet/texte court/étiquette catégorielle/mathématiques.

Démarrage rapide

Créer un ensemble de données de référence : pour rationaliser le processus d'évaluation à l'aide de xFinder, nous avons standardisé divers ensembles de données de référence grand public dans un format JSON unifié. Pour les détails de mise en œuvre, reportez-vous à create_benchmark_dataset.py. Si vous souhaitez évaluer vos propres ensembles de données à l'aide de xFinder, veuillez vous référer à notre modèle de script fourni benchmark_dataset_template.py pour obtenir des conseils sur la conversion de format.
Préparez les paires QA et les résultats LLM : rassemblez les résultats LLM que vous souhaitez évaluer. Assurez-vous que vos données incluent les éléments suivants :
- Question originale
- Type de réponse clé (options : alphabet, short_text, categorical_label, math)
- Sortie LLM
- Plage de réponses standard
Déployer le modèle xFinder : sélectionnez l'un des modèles suivants pour le déploiement :
- xFinder-qwen1505
- xFinder-llama38it

Après avoir déployé le modèle xFinder, suivez ces étapes pour exécuter une évaluation :

 # Install xfinder
conda create -n xfinder_env python=3.10 -y
conda activate xfinder_env
pip install xfinder

# Perform an evaluation with xFinder (a built-in example)
CUDA_VISIBLE_DEVICES=0 python -m xfinder.eval --run-example --model-name xFinder-qwen1505 --inference-mode local --model-path-or-url /path/to/anonymized/model/xFinder-qwen1505

xFinder prend en charge deux formes d'évaluation

Évaluation par lots des résultats expérimentaux résumés

Cette méthode vous permet d'évaluer plusieurs exemples stockés dans un fichier JSON.

 # Initialize Evaluator object
evaluator = Evaluator (
    model_name = "xFinder-qwen1505" ,   # Model name
    inference_mode = "api" ,            # Inference mode, 'local' or 'api'
    model_path_or_url = "http://your-anonymized-url/generate" ,  # Anonymized model path or URL
)
# Perform batch evaluation
data_path = "/path/to/your/data/example.json"  # User needs to provide their own data path
accuracy = evaluator . evaluate ( data_path )

print ( f"Batch evaluation accuracy: { accuracy } " )

? Mode d'évaluation à instance unique

Cette méthode vous permet d'évaluer des exemples individuels, qui peuvent être intégrés dans un cadre d'évaluation LLM.

 # Initialize Evaluator object
evaluator = Evaluator (
    model_name = "xFinder-qwen1505" ,   # Model name
    inference_mode = "local" ,            # Inference mode, 'local' or 'api'
    model_path_or_url = "IAAR-Shanghai/xFinder-qwen1505" ,  # Anonymized model path or URL
)
# Define input for a single evaluation
question = "What is the capital of France?"
llm_output = "The capital of France is Paris."
standard_answer_range = "[ " Paris " , " Lyon " , " Marseille " ]"
key_answer_type = "short_text"
correct_answer = "Paris"
# Perform single example evaluation
result = evaluator . evaluate_single_example (
    question ,
    llm_output ,
    standard_answer_range ,
    key_answer_type ,
    correct_answer
)

Conseil

Reportez-vous à demo.ipynb pour des exemples plus détaillés.
Exécutez export HF_ENDPOINT=https://hf-mirror.com pour utiliser le miroir chinois si vous ne parvenez pas à vous connecter à Hugging Face.
xFinder prend actuellement en charge le chargement via la méthode API déployée par vllm.
Nous fournissons des scripts pour affiner xFinder dans xfinder_training.

Exemples : RegEx contre xFinder

Nous montrons des cas pour quatre types de questions où RegEx ne parvient pas à extraire ou extrait fréquemment des réponses incorrectes, tandis que xFinder extrait avec précision les réponses clés.

{
    "key_answer_type" : " alphabet option " ,
    "question" : " A man is seen playing guitar on a stage with others playing instruments behind him. The man grabs a guitar from the audience and begins playing both one after the other ... " ,
    "llm_output" : " Option A is the correct choice as it describes ... " ,
    "standard_answer_range" : " [['A', 'strums the guitar in the end, continues playing the guitar with the crowd following him as well as lining up next to him.'], ['B', 'continues playing the instruments and ends by waving to the crowd and walking off stage.'], ['C', 'then turns to the audience and gives a stuffed toy to the audience and continues playing.'], ['D', 'finally stops playing and moves his hands for the crowd to see.']] " ,
    "gold_label" : " A " ,
    "xFinder_output" : " A " ,
},
{
    "key_answer_type" : " short text " ,
    "question" : " If you really wanted a grape, where would you go to get it? Answer Choices: winery / fruit stand / field / kitchen / food " ,
    "llm_output" : " The answer is winery / fruit stand / field / kitchen / food ... " ,
    "standard_answer_range" : " [ " winery " , " fruit stand " , " field " , " kitchen " , " food " ] " ,
    "gold_label" : " [No valid answer] " ,
    "xFinder_output" : " [No valid answer] " ,
},
{
    "key_answer_type" : " categorical label " ,
    "question" : " How tall is the Sears Building ? " ,
    "llm_output" : " The Sears Building is a specific structure, so the answer would be a Location ... " ,
    "standard_answer_range" : " ['Abbreviation', 'Entity', 'Description', 'Person', 'Location', 'Number'] " ,
    "gold_label" : " Location " ,
    "xFinder_output" : " Location " ,
},
{
    "key_answer_type" : " math " ,
    "question" : " Mike made 69 dollars mowing lawns over the summer. If he spent 24 dollars buying new mower blades, how many 5 dollar games could he buy with the money he had left? " ,
    "llm_output" : " To find out how many 5 dollar ... Let's calculate that: nn $45 / $5 = 9 nn So, Mike could buy 9 5 dollar games with the money he had left. " ,
    "standard_answer_range" : " a(n) number / set / vector / matrix / interval / expression / function / equation / inequality " ,
    "gold_label" : " 9 " ,
    "xFinder_output" : " 9 " ,
}

Résultats de la précision de l’extraction

Référence : OpenCompass, LM Eval Harness, UltraEval, GPT-4. Notre méthode : xFinder-qwen1505, xFinder-qwen1518, xFinder-gemma7, xFinder-chatglm36base, xFinder-llama38, xFinder-llama38it.

Nous avons évalué leur précision dans l'extraction des réponses clés de l'ensemble de tests KAF et des ensembles de généralisation. La métrique dans le tableau est la précision.

Citation

 @article{xFinder,
      title={xFinder: Robust and Pinpoint Answer Extraction for Large Language Models}, 
      author={Qingchen Yu and Zifan Zheng and Shichao Song and Zhiyu Li and Feiyu Xiong and Bo Tang and Ding Chen},
      journal={arXiv preprint arXiv:2405.11874},
      year={2024},
}

À FAIRE

Cliquez sur moi pour afficher tous les TODO

exploit : prise en charge du remplacement rapide de RegEx dans OpenCompass.
exploit : ajoutez des exemples d'ensembles de données supplémentaires au package xfinder PyPI.
exploit : ajouter des méthodes de chargement de modèles.
docs : étendre les documents de construction de l'ensemble de données.
docs : ajouter un didacticiel vidéo.