Sitio web del proyecto • Características clave • Cómo utilizar • Conjuntos de datos de referencia • Soporte de la comunidad • Contribución • Misión • Licencia
Eche un vistazo a nuestra página oficial para obtener documentación de usuario y ejemplos: langtest.org
LangTest viene con diferentes conjuntos de datos para probar sus modelos, cubriendo una amplia gama de casos de uso y escenarios de evaluación. Puede explorar todos los conjuntos de datos de referencia disponibles aquí, cada uno de ellos meticulosamente seleccionado para desafiar y mejorar sus modelos de lenguaje. Ya sea que se centre en la respuesta a preguntas, el resumen de texto, etc., LangTest garantiza que tendrá los datos correctos para llevar sus modelos al límite y lograr el máximo rendimiento en diversas tareas lingüísticas.
# Install langtest
!p ip install langtest [ transformers ]
# Import and create a Harness object
from langtest import Harness
h = Harness ( task = 'ner' , model = { "model" : 'dslim/bert-base-NER' , "hub" : 'huggingface' })
# Generate test cases, run them and view a report
h . generate (). run (). report ()
Nota Para obtener ejemplos más amplios de uso y documentación, visite langtest.org
Puede consultar los siguientes artículos de LangTest:
Blog | Descripción |
---|---|
Prueba automática de sesgos demográficos en planes de tratamiento clínico generados por modelos de lenguaje grandes | Ayuda a comprender y probar el sesgo demográfico en los planes de tratamiento clínico generados por LLM. |
LangTest: Revelar y corregir sesgos con canalizaciones de PNL de extremo a extremo | El canal de lenguaje de extremo a extremo en LangTest permite a los profesionales de la PNL abordar los sesgos en los modelos de lenguaje con un enfoque integral, iterativo y basado en datos. |
Más allá de la precisión: pruebas de robustez de modelos de reconocimiento de entidades nombradas con LangTest | Si bien la precisión es sin duda crucial, las pruebas de robustez llevan la evaluación de los modelos de procesamiento del lenguaje natural (NLP) al siguiente nivel al garantizar que los modelos puedan funcionar de manera confiable y consistente en una amplia gama de condiciones del mundo real. |
Eleve sus modelos de PNL con aumento de datos automatizado para mejorar el rendimiento | En este artículo, analizamos cómo el aumento automatizado de datos puede potenciar sus modelos de PNL y mejorar su rendimiento y cómo lo hacemos utilizando LangTest. |
Mitigar los estereotipos ocupacionales de género en la IA: evaluación de modelos con la prueba Wino Bias a través de la biblioteca Langtest | En este artículo, analizamos cómo podemos probar el "Wino Bias" usando LangTest. Se refiere específicamente a probar los sesgos que surgen de los estereotipos ocupacionales de género. |
Automatización de la IA responsable: integración de Hugging Face y LangTest para modelos más robustos | En este artículo, hemos explorado la integración entre Hugging Face, su fuente de referencia para modelos y conjuntos de datos de PNL de última generación, y LangTest, el arma secreta de su canal de PNL para pruebas y optimización. |
Detección y evaluación del sesgo de adulación: un análisis de soluciones de inteligencia artificial y LLM | En esta publicación de blog, analizamos el problema generalizado del comportamiento adulador de la IA y los desafíos que presenta en el mundo de la inteligencia artificial. Exploramos cómo los modelos lingüísticos a veces priorizan el acuerdo sobre la autenticidad, lo que dificulta conversaciones significativas e imparciales. Además, revelamos una posible solución revolucionaria a este problema: los datos sintéticos, que prometen revolucionar la forma en que los compañeros de IA participan en las discusiones, haciéndolas más confiables y precisas en diversas condiciones del mundo real. |
Desenmascarar la sensibilidad del modelo de lenguaje en evaluaciones de negación y toxicidad | En esta publicación de blog, profundizamos en la sensibilidad de los modelos de lenguaje y examinamos cómo los modelos manejan las negaciones y la toxicidad en el lenguaje. A través de estas pruebas, obtenemos información sobre la adaptabilidad y capacidad de respuesta de los modelos, enfatizando la necesidad continua de mejora en los modelos de PNL. |
Revelando sesgos en los modelos lingüísticos: género, raza, discapacidad y perspectivas socioeconómicas | En esta publicación de blog, exploramos los prejuicios en los modelos lingüísticos, centrándonos en el género, la raza, la discapacidad y los factores socioeconómicos. Evaluamos este sesgo utilizando el conjunto de datos CrowS-Pairs, diseñado para medir sesgos estereotipados. Para abordar estos sesgos, analizamos la importancia de herramientas como LangTest para promover la equidad en los sistemas de PNL. |
Desenmascarar los sesgos dentro de la IA: cómo el género, el origen étnico, la religión y la economía dan forma a la PNL y más allá | En esta publicación de blog, abordamos el sesgo de la IA sobre cómo el género, la etnia, la religión y la economía dan forma a los sistemas de PNL. Discutimos estrategias para reducir el sesgo y promover la equidad en los sistemas de IA. |
Evaluación de grandes modelos lingüísticos sobre estereotipos laborales y de género mediante la prueba de sesgo de Wino | En esta publicación de blog, nos sumergimos en las pruebas del conjunto de datos de WinoBias en LLM, examinando el manejo de los roles ocupacionales y de género por parte de los modelos lingüísticos, las métricas de evaluación y las implicaciones más amplias. Exploremos la evaluación de modelos de lenguaje con LangTest en el conjunto de datos de WinoBias y enfrentemos los desafíos de abordar el sesgo en la IA. |
Optimización de los flujos de trabajo de ML: integración de MLFlow Tracking con LangTest para evaluaciones de modelos mejoradas | En esta publicación de blog, nos sumergimos en la creciente necesidad de un seguimiento transparente, sistemático y completo de los modelos. Ingrese MLFlow y LangTest: dos herramientas que, cuando se combinan, crean un enfoque revolucionario para el desarrollo de ML. |
Prueba de las capacidades de respuesta de preguntas de modelos de lenguaje grandes | En esta publicación de blog, nos sumergimos en la mejora de las capacidades de evaluación de control de calidad utilizando la biblioteca LangTest. Explore los diferentes métodos de evaluación que ofrece LangTest para abordar las complejidades de evaluar las tareas de respuesta a preguntas (QA). |
Evaluación del sesgo de estereotipo con LangTest | En esta publicación de blog, nos centramos en el uso del conjunto de datos StereoSet para evaluar los prejuicios relacionados con el género, la profesión y la raza. |
Prueba de la solidez de los modelos de análisis de sentimiento basados en LSTM | Explore la solidez de los modelos personalizados con LangTest Insights. |
LangTest Insights: una inmersión profunda en la solidez de LLM en OpenBookQA | Explore la solidez de los modelos de lenguaje (LLM) en el conjunto de datos OpenBookQA con LangTest Insights. |
LangTest: un arma secreta para mejorar la robustez de los modelos de lenguaje de Transformers | Explore la solidez de los modelos de lenguaje Transformers con LangTest Insights. |
Dominar la evaluación del modelo: presentación del sistema integral de clasificación y clasificación en LangTest | El sistema Model Ranking & Leaderboard de LangTest de John Snow Labs ofrece un enfoque sistemático para evaluar modelos de IA con clasificaciones integrales, comparaciones históricas e información específica de conjuntos de datos, lo que permite a los investigadores y científicos de datos tomar decisiones basadas en datos sobre el rendimiento del modelo. |
Evaluación de respuestas extensas con Prometheus-Eval y Langtest | Prometheus-Eval y LangTest se unen para ofrecer una solución de código abierto, confiable y rentable para evaluar respuestas de formato largo, combinando el rendimiento de nivel GPT-4 de Prometheus y el sólido marco de pruebas de LangTest para proporcionar comentarios detallados e interpretables y alta precisión en evaluaciones. |
Garantizar la precisión de los LLM en el ámbito médico: el desafío del intercambio de nombres de medicamentos | La identificación precisa del nombre del medicamento es crucial para la seguridad del paciente. Las pruebas de GPT-4o con la prueba de conversión drug_generic_to_brand de LangTest revelaron errores potenciales en la predicción de los nombres de los medicamentos cuando los nombres de marca se reemplazan por ingredientes, lo que destaca la necesidad de un refinamiento continuo y pruebas rigurosas para garantizar la precisión y confiabilidad del LLM médico. |
Nota Para consultar todos los blogs, dirígete a Blogs
#langtest
Si bien se habla mucho sobre la necesidad de entrenar modelos de IA que sean seguros, robustos y justos, se han puesto a disposición de los científicos de datos pocas herramientas para alcanzar estos objetivos. Como resultado, la primera línea de los modelos de PNL en los sistemas de producción refleja una situación lamentable.
Proponemos aquí un proyecto comunitario de código abierto en etapa inicial que tiene como objetivo llenar este vacío y nos encantaría que se uniera a nosotros en esta misión. Nuestro objetivo es aprovechar las bases establecidas por investigaciones previas como Ribeiro et al. (2020), Song et al. (2020), Parrish et al. (2021), van Aken et al. (2021) y muchos otros.
John Snow Labs tiene un equipo de desarrollo completo asignado al proyecto y está comprometido a mejorar la biblioteca durante años, como lo hacemos con otras bibliotecas de código abierto. Espere lanzamientos frecuentes con nuevos tipos de pruebas, tareas, idiomas y plataformas que se agregarán periódicamente. Esperamos trabajar juntos para hacer de la PNL segura, confiable y responsable una realidad cotidiana.
Nota Para conocer el uso y la documentación, diríjase a langtest.org
Damos la bienvenida a todo tipo de contribuciones:
Puede encontrar una descripción detallada de las contribuciones en la guía de contribuciones .
Si desea comenzar a trabajar con el código base de LangTest, navegue hasta la pestaña "problemas" de GitHub y comience a buscar problemas interesantes. Hay una serie de cuestiones enumeradas a continuación por las que puede empezar. O tal vez al usar LangTest tienes una idea propia o estás buscando algo en la documentación y piensas "Esto se puede mejorar"... ¡puedes hacer algo al respecto!
No dude en hacer preguntas sobre las discusiones de preguntas y respuestas.
Como contribuyentes y mantenedores de este proyecto, se espera que respeten el código de conducta de LangTest. Puede encontrar más información en: Código de conducta del colaborador
Hemos publicado un artículo que puede citar para la biblioteca LangTest:
@article { nazir2024langtest ,
title = { LangTest: A comprehensive evaluation library for custom LLM and NLP models } ,
author = { Arshaan Nazir, Thadaka Kalyan Chakravarthy, David Amore Cecchini, Rakshit Khajuria, Prikshit Sharma, Ali Tarik Mirik, Veysel Kocaman and David Talby } ,
journal = { Software Impacts } ,
pages = { 100619 } ,
year = { 2024 } ,
publisher = { Elsevier }
}
Nos gustaría reconocer a todos los contribuyentes de este proyecto comunitario de código abierto.
LangTest se publica bajo la Licencia Apache 2.0, que garantiza el uso comercial, la modificación, la distribución, el uso de patentes, el uso privado y establece limitaciones en el uso, la responsabilidad y la garantía de las marcas.