Descarga langtest - Descarga del código fuente langtest

langtest

Código Fuente de IA

1.0.0

Descargar

Sitio web del proyecto • Características clave • Cómo utilizar • Conjuntos de datos de referencia • Soporte de la comunidad • Contribución • Misión • Licencia

Sitio web del proyecto

Eche un vistazo a nuestra página oficial para obtener documentación de usuario y ejemplos: langtest.org

Características clave

Genere y ejecute más de 60 tipos distintos de pruebas solo con 1 línea de código
Pruebe todos los aspectos de la calidad del modelo: solidez, sesgo, representación, equidad y precisión.
Aumente automáticamente los datos de entrenamiento según los resultados de las pruebas (para modelos seleccionados)
Soporte para marcos de PNL populares para NER, traducción y clasificación de texto: Spark NLP, Hugging Face y Transformers.
Soporte para pruebas de LLMS (OpenAI, Cohere, AI21, Hugging Face Inference API y Azure-OpenAI LLM) para respuesta a preguntas, toxicidad, pruebas clínicas, soporte legal, factualidad, adulación, resumen y otras pruebas populares.

Conjuntos de datos de referencia

LangTest viene con diferentes conjuntos de datos para probar sus modelos, cubriendo una amplia gama de casos de uso y escenarios de evaluación. Puede explorar todos los conjuntos de datos de referencia disponibles aquí, cada uno de ellos meticulosamente seleccionado para desafiar y mejorar sus modelos de lenguaje. Ya sea que se centre en la respuesta a preguntas, el resumen de texto, etc., LangTest garantiza que tendrá los datos correctos para llevar sus modelos al límite y lograr el máximo rendimiento en diversas tareas lingüísticas.

Cómo utilizar

 # Install langtest
!p ip install langtest [ transformers ]

# Import and create a Harness object
from langtest import Harness
h = Harness ( task = 'ner' , model = { "model" : 'dslim/bert-base-NER' , "hub" : 'huggingface' })

# Generate test cases, run them and view a report
h . generate (). run (). report ()

Nota Para obtener ejemplos más amplios de uso y documentación, visite langtest.org

Blogs de IA responsables

Puede consultar los siguientes artículos de LangTest:

Blog	Descripción
Prueba automática de sesgos demográficos en planes de tratamiento clínico generados por modelos de lenguaje grandes	Ayuda a comprender y probar el sesgo demográfico en los planes de tratamiento clínico generados por LLM.
LangTest: Revelar y corregir sesgos con canalizaciones de PNL de extremo a extremo	El canal de lenguaje de extremo a extremo en LangTest permite a los profesionales de la PNL abordar los sesgos en los modelos de lenguaje con un enfoque integral, iterativo y basado en datos.
Más allá de la precisión: pruebas de robustez de modelos de reconocimiento de entidades nombradas con LangTest	Si bien la precisión es sin duda crucial, las pruebas de robustez llevan la evaluación de los modelos de procesamiento del lenguaje natural (NLP) al siguiente nivel al garantizar que los modelos puedan funcionar de manera confiable y consistente en una amplia gama de condiciones del mundo real.
Eleve sus modelos de PNL con aumento de datos automatizado para mejorar el rendimiento	En este artículo, analizamos cómo el aumento automatizado de datos puede potenciar sus modelos de PNL y mejorar su rendimiento y cómo lo hacemos utilizando LangTest.
Mitigar los estereotipos ocupacionales de género en la IA: evaluación de modelos con la prueba Wino Bias a través de la biblioteca Langtest	En este artículo, analizamos cómo podemos probar el "Wino Bias" usando LangTest. Se refiere específicamente a probar los sesgos que surgen de los estereotipos ocupacionales de género.
Automatización de la IA responsable: integración de Hugging Face y LangTest para modelos más robustos	En este artículo, hemos explorado la integración entre Hugging Face, su fuente de referencia para modelos y conjuntos de datos de PNL de última generación, y LangTest, el arma secreta de su canal de PNL para pruebas y optimización.
Detección y evaluación del sesgo de adulación: un análisis de soluciones de inteligencia artificial y LLM	En esta publicación de blog, analizamos el problema generalizado del comportamiento adulador de la IA y los desafíos que presenta en el mundo de la inteligencia artificial. Exploramos cómo los modelos lingüísticos a veces priorizan el acuerdo sobre la autenticidad, lo que dificulta conversaciones significativas e imparciales. Además, revelamos una posible solución revolucionaria a este problema: los datos sintéticos, que prometen revolucionar la forma en que los compañeros de IA participan en las discusiones, haciéndolas más confiables y precisas en diversas condiciones del mundo real.
Desenmascarar la sensibilidad del modelo de lenguaje en evaluaciones de negación y toxicidad	En esta publicación de blog, profundizamos en la sensibilidad de los modelos de lenguaje y examinamos cómo los modelos manejan las negaciones y la toxicidad en el lenguaje. A través de estas pruebas, obtenemos información sobre la adaptabilidad y capacidad de respuesta de los modelos, enfatizando la necesidad continua de mejora en los modelos de PNL.
Revelando sesgos en los modelos lingüísticos: género, raza, discapacidad y perspectivas socioeconómicas	En esta publicación de blog, exploramos los prejuicios en los modelos lingüísticos, centrándonos en el género, la raza, la discapacidad y los factores socioeconómicos. Evaluamos este sesgo utilizando el conjunto de datos CrowS-Pairs, diseñado para medir sesgos estereotipados. Para abordar estos sesgos, analizamos la importancia de herramientas como LangTest para promover la equidad en los sistemas de PNL.
Desenmascarar los sesgos dentro de la IA: cómo el género, el origen étnico, la religión y la economía dan forma a la PNL y más allá	En esta publicación de blog, abordamos el sesgo de la IA sobre cómo el género, la etnia, la religión y la economía dan forma a los sistemas de PNL. Discutimos estrategias para reducir el sesgo y promover la equidad en los sistemas de IA.
Evaluación de grandes modelos lingüísticos sobre estereotipos laborales y de género mediante la prueba de sesgo de Wino	En esta publicación de blog, nos sumergimos en las pruebas del conjunto de datos de WinoBias en LLM, examinando el manejo de los roles ocupacionales y de género por parte de los modelos lingüísticos, las métricas de evaluación y las implicaciones más amplias. Exploremos la evaluación de modelos de lenguaje con LangTest en el conjunto de datos de WinoBias y enfrentemos los desafíos de abordar el sesgo en la IA.
Optimización de los flujos de trabajo de ML: integración de MLFlow Tracking con LangTest para evaluaciones de modelos mejoradas	En esta publicación de blog, nos sumergimos en la creciente necesidad de un seguimiento transparente, sistemático y completo de los modelos. Ingrese MLFlow y LangTest: dos herramientas que, cuando se combinan, crean un enfoque revolucionario para el desarrollo de ML.
Prueba de las capacidades de respuesta de preguntas de modelos de lenguaje grandes	En esta publicación de blog, nos sumergimos en la mejora de las capacidades de evaluación de control de calidad utilizando la biblioteca LangTest. Explore los diferentes métodos de evaluación que ofrece LangTest para abordar las complejidades de evaluar las tareas de respuesta a preguntas (QA).
Evaluación del sesgo de estereotipo con LangTest	En esta publicación de blog, nos centramos en el uso del conjunto de datos StereoSet para evaluar los prejuicios relacionados con el género, la profesión y la raza.
Prueba de la solidez de los modelos de análisis de sentimiento basados en LSTM	Explore la solidez de los modelos personalizados con LangTest Insights.
LangTest Insights: una inmersión profunda en la solidez de LLM en OpenBookQA	Explore la solidez de los modelos de lenguaje (LLM) en el conjunto de datos OpenBookQA con LangTest Insights.
LangTest: un arma secreta para mejorar la robustez de los modelos de lenguaje de Transformers	Explore la solidez de los modelos de lenguaje Transformers con LangTest Insights.
Dominar la evaluación del modelo: presentación del sistema integral de clasificación y clasificación en LangTest	El sistema Model Ranking & Leaderboard de LangTest de John Snow Labs ofrece un enfoque sistemático para evaluar modelos de IA con clasificaciones integrales, comparaciones históricas e información específica de conjuntos de datos, lo que permite a los investigadores y científicos de datos tomar decisiones basadas en datos sobre el rendimiento del modelo.
Evaluación de respuestas extensas con Prometheus-Eval y Langtest	Prometheus-Eval y LangTest se unen para ofrecer una solución de código abierto, confiable y rentable para evaluar respuestas de formato largo, combinando el rendimiento de nivel GPT-4 de Prometheus y el sólido marco de pruebas de LangTest para proporcionar comentarios detallados e interpretables y alta precisión en evaluaciones.
Garantizar la precisión de los LLM en el ámbito médico: el desafío del intercambio de nombres de medicamentos	La identificación precisa del nombre del medicamento es crucial para la seguridad del paciente. Las pruebas de GPT-4o con la prueba de conversión *drug_generic_to_brand* de LangTest revelaron errores potenciales en la predicción de los nombres de los medicamentos cuando los nombres de marca se reemplazan por ingredientes, lo que destaca la necesidad de un refinamiento continuo y pruebas rigurosas para garantizar la precisión y confiabilidad del LLM médico.

Nota Para consultar todos los blogs, dirígete a Blogs

Apoyo comunitario

Slack Para una discusión en vivo con la comunidad LangTest, únete al canal #langtest
GitHub Para informes de errores, solicitudes de funciones y contribuciones
Discusiones ¡Para interactuar con otros miembros de la comunidad, compartir ideas y mostrar cómo usa LangTest!

Misión

Si bien se habla mucho sobre la necesidad de entrenar modelos de IA que sean seguros, robustos y justos, se han puesto a disposición de los científicos de datos pocas herramientas para alcanzar estos objetivos. Como resultado, la primera línea de los modelos de PNL en los sistemas de producción refleja una situación lamentable.

Proponemos aquí un proyecto comunitario de código abierto en etapa inicial que tiene como objetivo llenar este vacío y nos encantaría que se uniera a nosotros en esta misión. Nuestro objetivo es aprovechar las bases establecidas por investigaciones previas como Ribeiro et al. (2020), Song et al. (2020), Parrish et al. (2021), van Aken et al. (2021) y muchos otros.

John Snow Labs tiene un equipo de desarrollo completo asignado al proyecto y está comprometido a mejorar la biblioteca durante años, como lo hacemos con otras bibliotecas de código abierto. Espere lanzamientos frecuentes con nuevos tipos de pruebas, tareas, idiomas y plataformas que se agregarán periódicamente. Esperamos trabajar juntos para hacer de la PNL segura, confiable y responsable una realidad cotidiana.

Nota Para conocer el uso y la documentación, diríjase a langtest.org

Contribuyendo a LangTest

Damos la bienvenida a todo tipo de contribuciones:

Ideas
Discusiones
Comentario
Documentación
Informes de errores

Puede encontrar una descripción detallada de las contribuciones en la guía de contribuciones .

Si desea comenzar a trabajar con el código base de LangTest, navegue hasta la pestaña "problemas" de GitHub y comience a buscar problemas interesantes. Hay una serie de cuestiones enumeradas a continuación por las que puede empezar. O tal vez al usar LangTest tienes una idea propia o estás buscando algo en la documentación y piensas "Esto se puede mejorar"... ¡puedes hacer algo al respecto!

No dude en hacer preguntas sobre las discusiones de preguntas y respuestas.

Como contribuyentes y mantenedores de este proyecto, se espera que respeten el código de conducta de LangTest. Puede encontrar más información en: Código de conducta del colaborador

Citación

Hemos publicado un artículo que puede citar para la biblioteca LangTest:

 @article { nazir2024langtest ,
  title = { LangTest: A comprehensive evaluation library for custom LLM and NLP models } ,
  author = { Arshaan Nazir, Thadaka Kalyan Chakravarthy, David Amore Cecchini, Rakshit Khajuria, Prikshit Sharma, Ali Tarik Mirik, Veysel Kocaman and David Talby } ,
  journal = { Software Impacts } ,
  pages = { 100619 } ,
  year = { 2024 } ,
  publisher = { Elsevier }
}

Colaboradores

Nos gustaría reconocer a todos los contribuyentes de este proyecto comunitario de código abierto.

Licencia

LangTest se publica bajo la Licencia Apache 2.0, que garantiza el uso comercial, la modificación, la distribución, el uso de patentes, el uso privado y establece limitaciones en el uso, la responsabilidad y la garantía de las marcas.

Expandir

Información adicional

Versión 1.0.0
Tipo Código Fuente de IA
Fecha de actualización 2025-01-27
tamaño 69.92MB
Proviene de Github

Aplicaciones relacionadas

node telegram bot api

2024-12-14
typebot.io

2024-12-14
python wechaty getting started

2024-12-14
TranscriberBot

2024-12-14
genal chat

2024-12-14
Facemoji

2024-12-14

Recomendado para ti

chat.petals.dev

Otro código fuente

1.0.0
GPT Prompt Templates

Otro código fuente

1.0.0
GPTyped

Otro código fuente

GPTyped 1.0.5
node telegram bot api

Código Fuente de IA

v0.50.0
typebot.io

Código Fuente de IA

v3.1.2
python wechaty getting started

Código Fuente de IA

1.0.0
waymo open dataset

Otro código fuente

December 2023 Update
wp functions

Otras categorias

1.0.0
termwind

Otras categorias

v2.3.0

Información relacionada Todo