Descarga xFinder - Descarga del código fuente xFinder

xFinder

Código Fuente de IA

v0.2.3 Released!

Descargar

xFinder: Extracción de respuestas sólida y precisa para modelos de lenguaje grandes

Qingchen Yu ^1,* , Zifan Zheng ^1,* , Shichao Song ^2,* , Zhiyu Li ^1,† , Feiyu Xiong ¹ , Bo Tang ¹ , Ding Chen ¹

¹ Instituto de Investigación de Algoritmos Avanzados, Shanghai, ² Universidad Renmin de China

Para consultas comerciales, contáctenos en [email protected].

¿Quién debe prestar atención a nuestro trabajo?

Si está desarrollando un punto de referencia , puede utilizar nuestro xFinder para reemplazar los métodos RegEx tradicionales para extraer respuestas clave de las respuestas de LLM. Esto le ayudará a mejorar la precisión de los resultados de su evaluación, permitiendo comparaciones y validaciones más confiables y significativas del rendimiento del modelo.
Si es diseñador de marcos de evaluación , puede integrar nuestro xFinder en el componente de extracción de respuestas de su marco para mejorar la solidez y confiabilidad del proceso de evaluación.

Importante

? ¡Estrellanos! Al destacar nuestro proyecto en GitHub, recibirás todas las notificaciones de lanzamiento al instante. ¡Apreciamos su apoyo!

? Noticias

[2024/10] Hemos abierto el conjunto de datos KAF y hemos lanzado xFinder como un paquete PyPI.
[2024/09] ¡ xFinder se ha integrado con éxito en OpenCompass!
[2024/08] Actualizamos xFinder: el modelo ahora admite el procesamiento tanto en inglés como en chino.
[2024/05] Lanzamos xFinder: Extracción de respuestas sólida y precisa para modelos de lenguaje grandes. Mira el periódico.

Descripción general

Abstracto

El avance continuo de los modelos de lenguajes grandes (LLM) ha atraído cada vez más atención a la cuestión crítica del desarrollo de métodos justos y confiables para evaluar su desempeño. En particular, la aparición de fenómenos de trampa subjetivos o no subjetivos, como la fuga de conjuntos de pruebas y el sobreajuste del formato rápido, plantea desafíos importantes para la evaluación confiable de los LLM. Dado que los marcos de evaluación suelen utilizar expresiones regulares (RegEx) para la extracción de respuestas, algunos modelos pueden ajustar sus respuestas para cumplir con formatos específicos que RegEx pueden extraer fácilmente. Sin embargo, el módulo de extracción de respuestas clave basado en RegEx frecuentemente sufre errores de extracción. Este documento realiza un análisis integral de toda la cadena de evaluación de LLM, lo que demuestra que la optimización del módulo de extracción de respuestas clave puede mejorar la precisión de la extracción, reducir la dependencia de los LLM de formatos de respuesta específicos y mejorar la confiabilidad de la evaluación de LLM. Para abordar estos problemas, proponemos xFinder, un modelo diseñado específicamente para la extracción de respuestas clave. Como parte de este proceso, creamos un conjunto de datos especializado, el conjunto de datos Key Answer Finder (KAF), para garantizar una capacitación y evaluación efectiva del modelo. A través de pruebas de generalización y evaluación en escenarios del mundo real, los resultados demuestran que el modelo xFinder más pequeño con solo 500 millones de parámetros logra una precisión promedio de extracción de respuestas del 93,42%. Por el contrario, la precisión de RegEx en el mejor marco de evaluación es del 74,38%. xFinder muestra una mayor solidez y mayor precisión en comparación con los marcos de evaluación existentes.

Resumimos nuestras principales contribuciones de la siguiente manera:

Proporcionamos una revisión integral de los procesos de evaluación de LLM en la industria, identificando factores críticos que pueden conducir a resultados de evaluación poco confiables.
Presentamos xFinder, un modelo diseñado específicamente para la extracción de respuestas clave. El conjunto de datos de KAF respalda su capacitación y evaluación efectivas.
En nuestros extensos experimentos, demostramos que los métodos de evaluación basados en RegEx no son confiables, mientras que nuestro modelo xFinder mejora significativamente la confiabilidad.

Como se muestra en la figura, se ilustran casos en los que marcos de evaluación como LM Eval Harness y OpenCompass no lograron extraer respuestas clave. Específicamente, A/T/C/M representan tareas con opciones de alfabeto/texto breve/etiqueta categórica/matemáticas, respectivamente.

Inicio rápido

Crear un conjunto de datos de referencia : para agilizar el proceso de evaluación utilizando xFinder, hemos estandarizado varios conjuntos de datos de referencia convencionales en un formato JSON unificado. Para obtener detalles de implementación, consulte create_benchmark_dataset.py. Si desea evaluar sus propios conjuntos de datos utilizando xFinder, consulte nuestra plantilla de script proporcionada benchmark_dataset_template.py para obtener orientación sobre la conversión de formato.
Prepare pares de control de calidad y resultados de LLM : recopile los resultados de LLM que desea evaluar. Asegúrese de que sus datos incluyan los siguientes elementos:
- pregunta original
- Tipo de respuesta clave (opciones: alfabeto, texto corto, etiqueta_categórica, matemáticas)
- Salida del LLM
- Rango de respuesta estándar
Implementar el modelo xFinder : seleccione uno de los siguientes modelos para la implementación:
- xFinder-qwen1505
- xFinder-llama38it

Después de implementar el modelo xFinder, siga estos pasos para ejecutar una evaluación:

 # Install xfinder
conda create -n xfinder_env python=3.10 -y
conda activate xfinder_env
pip install xfinder

# Perform an evaluation with xFinder (a built-in example)
CUDA_VISIBLE_DEVICES=0 python -m xfinder.eval --run-example --model-name xFinder-qwen1505 --inference-mode local --model-path-or-url /path/to/anonymized/model/xFinder-qwen1505

xFinder admite dos formas de evaluación

Evaluación por lotes de resultados experimentales resumidos

Este método le permite evaluar múltiples ejemplos almacenados en un archivo JSON.

 # Initialize Evaluator object
evaluator = Evaluator (
    model_name = "xFinder-qwen1505" ,   # Model name
    inference_mode = "api" ,            # Inference mode, 'local' or 'api'
    model_path_or_url = "http://your-anonymized-url/generate" ,  # Anonymized model path or URL
)
# Perform batch evaluation
data_path = "/path/to/your/data/example.json"  # User needs to provide their own data path
accuracy = evaluator . evaluate ( data_path )

print ( f"Batch evaluation accuracy: { accuracy } " )

? Modo de evaluación de instancia única

Este método le permite evaluar ejemplos individuales, que pueden integrarse en un marco de evaluación de LLM.

 # Initialize Evaluator object
evaluator = Evaluator (
    model_name = "xFinder-qwen1505" ,   # Model name
    inference_mode = "local" ,            # Inference mode, 'local' or 'api'
    model_path_or_url = "IAAR-Shanghai/xFinder-qwen1505" ,  # Anonymized model path or URL
)
# Define input for a single evaluation
question = "What is the capital of France?"
llm_output = "The capital of France is Paris."
standard_answer_range = "[ " Paris " , " Lyon " , " Marseille " ]"
key_answer_type = "short_text"
correct_answer = "Paris"
# Perform single example evaluation
result = evaluator . evaluate_single_example (
    question ,
    llm_output ,
    standard_answer_range ,
    key_answer_type ,
    correct_answer
)

Consejo

Consulte demo.ipynb para obtener ejemplos más detallados.
Ejecute export HF_ENDPOINT=https://hf-mirror.com para usar el espejo chino si no puede conectarse a Hugging Face.
xFinder actualmente admite la carga a través del método API implementado por vllm.
Proporcionamos scripts para ajustar xFinder en xfinder_training.

Ejemplos: RegEx frente a xFinder

Demostramos casos en cuatro tipos de preguntas en los que RegEx no logra extraer o con frecuencia extrae respuestas incorrectas, mientras que xFinder extrae con precisión las respuestas clave.

{
    "key_answer_type" : " alphabet option " ,
    "question" : " A man is seen playing guitar on a stage with others playing instruments behind him. The man grabs a guitar from the audience and begins playing both one after the other ... " ,
    "llm_output" : " Option A is the correct choice as it describes ... " ,
    "standard_answer_range" : " [['A', 'strums the guitar in the end, continues playing the guitar with the crowd following him as well as lining up next to him.'], ['B', 'continues playing the instruments and ends by waving to the crowd and walking off stage.'], ['C', 'then turns to the audience and gives a stuffed toy to the audience and continues playing.'], ['D', 'finally stops playing and moves his hands for the crowd to see.']] " ,
    "gold_label" : " A " ,
    "xFinder_output" : " A " ,
},
{
    "key_answer_type" : " short text " ,
    "question" : " If you really wanted a grape, where would you go to get it? Answer Choices: winery / fruit stand / field / kitchen / food " ,
    "llm_output" : " The answer is winery / fruit stand / field / kitchen / food ... " ,
    "standard_answer_range" : " [ " winery " , " fruit stand " , " field " , " kitchen " , " food " ] " ,
    "gold_label" : " [No valid answer] " ,
    "xFinder_output" : " [No valid answer] " ,
},
{
    "key_answer_type" : " categorical label " ,
    "question" : " How tall is the Sears Building ? " ,
    "llm_output" : " The Sears Building is a specific structure, so the answer would be a Location ... " ,
    "standard_answer_range" : " ['Abbreviation', 'Entity', 'Description', 'Person', 'Location', 'Number'] " ,
    "gold_label" : " Location " ,
    "xFinder_output" : " Location " ,
},
{
    "key_answer_type" : " math " ,
    "question" : " Mike made 69 dollars mowing lawns over the summer. If he spent 24 dollars buying new mower blades, how many 5 dollar games could he buy with the money he had left? " ,
    "llm_output" : " To find out how many 5 dollar ... Let's calculate that: nn $45 / $5 = 9 nn So, Mike could buy 9 5 dollar games with the money he had left. " ,
    "standard_answer_range" : " a(n) number / set / vector / matrix / interval / expression / function / equation / inequality " ,
    "gold_label" : " 9 " ,
    "xFinder_output" : " 9 " ,
}

Resultados de la precisión de la extracción

Línea de base : OpenCompass, arnés de evaluación LM, UltraEval, GPT-4. Nuestro método : xFinder-qwen1505, xFinder-qwen1518, xFinder-gemma7, xFinder-chatglm36base, xFinder-llama38, xFinder-llama38it.

Evaluamos su precisión en la extracción de respuestas clave tanto del conjunto de pruebas KAF como de los conjuntos de generalización. La métrica en la tabla es la precisión.

Citación

 @article{xFinder,
      title={xFinder: Robust and Pinpoint Answer Extraction for Large Language Models}, 
      author={Qingchen Yu and Zifan Zheng and Shichao Song and Zhiyu Li and Feiyu Xiong and Bo Tang and Ding Chen},
      journal={arXiv preprint arXiv:2405.11874},
      year={2024},
}

TODO

Haz clic en mí para mostrar todos los TODO

Proeza: admite el reemplazo rápido de RegEx en OpenCompass.
Hazaña: agregue conjuntos de datos de ejemplo adicionales al paquete xfinder PyPI.
Hazaña: agregar métodos de carga de modelos.
docs: amplía los documentos de construcción del conjunto de datos.
documentos: agregar video tutorial.