Téléchargement langtest - Téléchargement du code source langtest

langtest

Code Source AI

1.0.0

Télécharger

Site Web du projet • Fonctionnalités clés • Comment utiliser • Ensembles de données de référence • Support communautaire • Contribution • Mission • Licence

Site Web du projet

Jetez un œil à notre page officielle pour la documentation utilisateur et des exemples : langtest.org

Principales fonctionnalités

Générez et exécutez plus de 60 types de tests distincts avec seulement 1 ligne de code
Testez tous les aspects de la qualité du modèle : robustesse, biais, représentation, équité et précision.
Augmentez automatiquement les données d'entraînement en fonction des résultats des tests (pour certains modèles)
Prise en charge des frameworks NLP populaires pour NER, traduction et classification de texte : Spark NLP, Hugging Face & Transformers.
Prise en charge des tests LLMS (OpenAI, Cohere, AI21, Hugging Face Inference API et Azure-OpenAI LLM) pour la réponse aux questions, la toxicité, les tests cliniques, le support juridique, la factualité, la flagornerie, le résumé et d'autres tests populaires.

Ensembles de données de référence

LangTest est livré avec différents ensembles de données pour tester vos modèles, couvrant un large éventail de cas d'utilisation et de scénarios d'évaluation. Vous pouvez explorer tous les ensembles de données de référence disponibles ici, chacun étant méticuleusement organisé pour remettre en question et améliorer vos modèles linguistiques. Que vous vous concentriez sur les questions-réponses, la synthèse de texte, etc., LangTest garantit que vous disposez des bonnes données pour pousser vos modèles à leurs limites et atteindre des performances optimales dans diverses tâches linguistiques.

Comment utiliser

 # Install langtest
!p ip install langtest [ transformers ]

# Import and create a Harness object
from langtest import Harness
h = Harness ( task = 'ner' , model = { "model" : 'dslim/bert-base-NER' , "hub" : 'huggingface' })

# Generate test cases, run them and view a report
h . generate (). run (). report ()

Remarque Pour des exemples plus détaillés d'utilisation et de documentation, rendez-vous sur langtest.org

Blogs sur l'IA responsable

Vous pouvez consulter les articles LangTest suivants :

Blogue	Description
Test automatique des biais démographiques dans les plans de traitement clinique générés par de grands modèles linguistiques	Aide à comprendre et à tester les biais démographiques dans les plans de traitement clinique générés par LLM.
LangTest : Dévoiler et corriger les biais avec les pipelines NLP de bout en bout	Le pipeline linguistique de bout en bout de LangTest permet aux praticiens du PNL de lutter contre les préjugés dans les modèles linguistiques grâce à une approche globale, basée sur les données et itérative.
Au-delà de la précision : tests de robustesse des modèles de reconnaissance d'entités nommées avec LangTest	Bien que la précision soit sans aucun doute cruciale, les tests de robustesse font passer l'évaluation des modèles de traitement du langage naturel (NLP) à un niveau supérieur en garantissant que les modèles peuvent fonctionner de manière fiable et cohérente dans un large éventail de conditions du monde réel.
Élevez vos modèles PNL avec une augmentation automatisée des données pour des performances améliorées	Dans cet article, nous expliquons comment l'augmentation automatisée des données peut dynamiser vos modèles NLP et améliorer leurs performances et comment nous y parvenons à l'aide de LangTest.
Atténuer les stéréotypes de genre et professionnels dans l'IA : évaluation des modèles avec le test de biais Wino via la bibliothèque Langtest	Dans cet article, nous discutons de la manière dont nous pouvons tester le « biais Wino » à l'aide de LangTest. Il fait spécifiquement référence au test des biais résultant de stéréotypes professionnels de genre.
Automatisation de l'IA responsable : intégration de Hugging Face et LangTest pour des modèles plus robustes	Dans cet article, nous avons exploré l'intégration entre Hugging Face, votre source incontournable de modèles et d'ensembles de données PNL de pointe, et LangTest, l'arme secrète de votre pipeline PNL pour les tests et l'optimisation.
Détection et évaluation du biais de flagornerie : une analyse des solutions LLM et IA	Dans cet article de blog, nous discutons du problème omniprésent du comportement flagorneur de l’IA et des défis qu’il présente dans le monde de l’intelligence artificielle. Nous explorons comment les modèles linguistiques donnent parfois la priorité à l’accord plutôt qu’à l’authenticité, entravant ainsi les conversations significatives et impartiales. En outre, nous dévoilons une solution potentielle révolutionnaire à ce problème, les données synthétiques, qui promettent de révolutionner la façon dont les compagnons de l'IA s'engagent dans les discussions, les rendant plus fiables et plus précises dans diverses conditions du monde réel.
Démasquer la sensibilité du modèle linguistique dans les évaluations de négation et de toxicité	Dans cet article de blog, nous approfondissons la sensibilité des modèles linguistiques, en examinant comment les modèles gèrent les négations et la toxicité du langage. Grâce à ces tests, nous obtenons un aperçu de l'adaptabilité et de la réactivité des modèles, soulignant le besoin continu d'amélioration des modèles NLP.
Dévoiler les préjugés dans les modèles linguistiques : perspectives de genre, de race, de handicap et socio-économiques	Dans cet article de blog, nous explorons les préjugés dans les modèles linguistiques, en nous concentrant sur le sexe, la race, le handicap et les facteurs socio-économiques. Nous évaluons ce biais à l'aide de l'ensemble de données CrowS-Pairs, conçu pour mesurer les biais stéréotypés. Pour remédier à ces préjugés, nous discutons de l'importance d'outils comme LangTest pour promouvoir l'équité dans les systèmes PNL.
Démasquer les préjugés au sein de l'IA : comment le genre, l'origine ethnique, la religion et l'économie façonnent la PNL et au-delà	Dans cet article de blog, nous abordons les préjugés de l’IA sur la manière dont le genre, l’origine ethnique, la religion et l’économie façonnent les systèmes PNL. Nous avons discuté de stratégies visant à réduire les préjugés et à promouvoir l’équité dans les systèmes d’IA.
Évaluation de grands modèles linguistiques sur les stéréotypes liés au genre et au travail à l'aide du test de biais Wino	Dans cet article de blog, nous nous penchons sur le test de l'ensemble de données WinoBias sur les LLM, en examinant la gestion par les modèles linguistiques des rôles de genre et professionnels, les mesures d'évaluation et les implications plus larges. Explorons l'évaluation des modèles de langage avec LangTest sur l'ensemble de données WinoBias et affrontons les défis liés à la lutte contre les biais dans l'IA.
Rationalisation des flux de travail ML : intégration du suivi MLFlow avec LangTest pour des évaluations de modèles améliorées	Dans cet article de blog, nous abordons le besoin croissant d’un suivi transparent, systématique et complet des modèles. Entrez MLFlow et LangTest : deux outils qui, une fois combinés, créent une approche révolutionnaire du développement ML.
Test des capacités de réponse aux questions des grands modèles de langage	Dans cet article de blog, nous examinons l'amélioration des capacités d'évaluation de l'assurance qualité à l'aide de la bibliothèque LangTest. Découvrez les différentes méthodes d'évaluation proposées par LangTest pour répondre aux complexités de l'évaluation des tâches de réponse aux questions (AQ).
Évaluation des préjugés stéréotypés avec LangTest	Dans cet article de blog, nous nous concentrons sur l'utilisation de l'ensemble de données StereoSet pour évaluer les préjugés liés au sexe, à la profession et à la race.
Test de la robustesse des modèles d'analyse des sentiments basés sur LSTM	Explorez la robustesse des modèles personnalisés avec LangTest Insights.
LangTest Insights : une plongée approfondie dans la robustesse du LLM sur OpenBookQA	Explorez la robustesse des modèles de langage (LLM) sur l'ensemble de données OpenBookQA avec LangTest Insights.
LangTest : une arme secrète pour améliorer la robustesse de vos modèles de langage Transformers	Explorez la robustesse des modèles de langage Transformers avec LangTest Insights.
Maîtriser l'évaluation du modèle : présentation du système complet de classement et de classement dans LangTest	Le système Model Ranking & Leaderboard de LangTest de John Snow Labs propose une approche systématique pour évaluer les modèles d'IA avec un classement complet, des comparaisons historiques et des informations spécifiques aux ensembles de données, permettant aux chercheurs et aux data scientists de prendre des décisions basées sur les données sur les performances du modèle.
Évaluation des réponses longues avec Prometheus-Eval et Langtest	Prometheus-Eval et LangTest s'unissent pour offrir une solution open source, fiable et rentable pour évaluer les réponses longues, combinant les performances de niveau GPT-4 de Prometheus et le cadre de test robuste de LangTest pour fournir des commentaires détaillés et interprétables et une grande précision dans évaluations.
Assurer la précision des LLM dans le domaine médical : le défi de l’échange de noms de médicaments	Une identification précise du nom des médicaments est cruciale pour la sécurité des patients. Le test de GPT-4o avec le test de conversion *drug_generic_to_brand* de LangTest a révélé des erreurs potentielles dans la prédiction des noms de médicaments lorsque les noms de marque sont remplacés par des ingrédients, soulignant la nécessité d'un raffinement continu et de tests rigoureux pour garantir l'exactitude et la fiabilité du LLM médical.

Remarque Pour consulter tous les blogs, rendez-vous sur Blogs

Soutien communautaire

Slack Pour discuter en direct avec la communauté LangTest, rejoignez la chaîne #langtest
GitHub Pour les rapports de bogues, les demandes de fonctionnalités et les contributions
Discussions Pour interagir avec d'autres membres de la communauté, partager des idées et montrer comment vous utilisez LangTest !

Mission

Bien que l’on parle beaucoup de la nécessité de former des modèles d’IA sûrs, robustes et équitables, peu d’outils ont été mis à la disposition des data scientists pour atteindre ces objectifs. En conséquence, la première ligne des modèles PNL dans les systèmes de production reflète un état de fait désolant.

Nous proposons ici un projet communautaire open source à un stade précoce qui vise à combler cette lacune, et serions ravis que vous nous rejoigniez dans cette mission. Nous visons à nous appuyer sur les bases posées par des recherches antérieures telles que celles de Ribeiro et al. (2020), Song et coll. (2020), Parrish et coll. (2021), van Aken et coll. (2021) et bien d’autres.

John Snow Labs dispose d'une équipe de développement complète affectée au projet et s'engage à améliorer la bibliothèque pendant des années, comme nous le faisons avec d'autres bibliothèques open source. Attendez-vous à des versions fréquentes avec de nouveaux types de tests, tâches, langages et plates-formes ajoutés régulièrement. Nous sommes impatients de travailler ensemble pour faire de la PNL sûre, fiable et responsable une réalité quotidienne.

Remarque Pour l'utilisation et la documentation, rendez-vous sur langtest.org

Contribuer à LangTest

Nous acceptons toutes sortes de contributions :

Idées
Discussions
Retour
Documentation
Rapports de bogues

Un aperçu détaillé de la contribution peut être trouvé dans le guide de contribution .

Si vous souhaitez commencer à travailler avec la base de code LangTest, accédez à l'onglet « problèmes » de GitHub et commencez à examiner les problèmes intéressants. Vous trouverez ci-dessous un certain nombre de questions par lesquelles vous pouvez commencer. Ou peut-être qu'en utilisant LangTest, vous avez votre propre idée ou que vous recherchez quelque chose dans la documentation et que vous pensez « Cela peut être amélioré »... vous pouvez faire quelque chose à ce sujet !

N'hésitez pas à poser des questions sur les discussions questions-réponses.

En tant que contributeurs et responsables de ce projet, vous devez respecter le code de conduite de LangTest. Pour plus d'informations, consultez : Code de conduite des contributeurs

Citation

Nous avons publié un article que vous pouvez citer pour la bibliothèque LangTest :

 @article { nazir2024langtest ,
  title = { LangTest: A comprehensive evaluation library for custom LLM and NLP models } ,
  author = { Arshaan Nazir, Thadaka Kalyan Chakravarthy, David Amore Cecchini, Rakshit Khajuria, Prikshit Sharma, Ali Tarik Mirik, Veysel Kocaman and David Talby } ,
  journal = { Software Impacts } ,
  pages = { 100619 } ,
  year = { 2024 } ,
  publisher = { Elsevier }
}

Contributeurs

Nous tenons à remercier tous les contributeurs de ce projet communautaire open source.

Licence

LangTest est publié sous la licence Apache 2.0, qui garantit l'utilisation commerciale, la modification, la distribution, l'utilisation des brevets, l'utilisation privée et fixe les limites de l'utilisation de la marque, de la responsabilité et de la garantie.

Développer

Informations supplémentaires

Version 1.0.0
Type Code Source AI
Date de mise à jour 2025-01-27
taille 69.92MB
Provenant de Github

Applications connexes

node telegram bot api

2024-12-14
typebot.io

2024-12-14
python wechaty getting started

2024-12-14
TranscriberBot

2024-12-14
genal chat

2024-12-14
Facemoji

2024-12-14

Recommandé pour vous

chat.petals.dev

Autre code source

1.0.0
GPT Prompt Templates

Autre code source

1.0.0
GPTyped

Autre code source

GPTyped 1.0.5
node telegram bot api

Code Source AI

v0.50.0
typebot.io

Code Source AI

v3.1.2
python wechaty getting started

Code Source AI

1.0.0
waymo open dataset

Autre code source

December 2023 Update
termwind

Autres catégories

v2.3.0
wp functions

Autres catégories

1.0.0

Actualités connexes Tout