Site Web du projet • Fonctionnalités clés • Comment utiliser • Ensembles de données de référence • Support communautaire • Contribution • Mission • Licence
Jetez un œil à notre page officielle pour la documentation utilisateur et des exemples : langtest.org
LangTest est livré avec différents ensembles de données pour tester vos modèles, couvrant un large éventail de cas d'utilisation et de scénarios d'évaluation. Vous pouvez explorer tous les ensembles de données de référence disponibles ici, chacun étant méticuleusement organisé pour remettre en question et améliorer vos modèles linguistiques. Que vous vous concentriez sur les questions-réponses, la synthèse de texte, etc., LangTest garantit que vous disposez des bonnes données pour pousser vos modèles à leurs limites et atteindre des performances optimales dans diverses tâches linguistiques.
# Install langtest
!p ip install langtest [ transformers ]
# Import and create a Harness object
from langtest import Harness
h = Harness ( task = 'ner' , model = { "model" : 'dslim/bert-base-NER' , "hub" : 'huggingface' })
# Generate test cases, run them and view a report
h . generate (). run (). report ()
Remarque Pour des exemples plus détaillés d'utilisation et de documentation, rendez-vous sur langtest.org
Vous pouvez consulter les articles LangTest suivants :
Blogue | Description |
---|---|
Test automatique des biais démographiques dans les plans de traitement clinique générés par de grands modèles linguistiques | Aide à comprendre et à tester les biais démographiques dans les plans de traitement clinique générés par LLM. |
LangTest : Dévoiler et corriger les biais avec les pipelines NLP de bout en bout | Le pipeline linguistique de bout en bout de LangTest permet aux praticiens du PNL de lutter contre les préjugés dans les modèles linguistiques grâce à une approche globale, basée sur les données et itérative. |
Au-delà de la précision : tests de robustesse des modèles de reconnaissance d'entités nommées avec LangTest | Bien que la précision soit sans aucun doute cruciale, les tests de robustesse font passer l'évaluation des modèles de traitement du langage naturel (NLP) à un niveau supérieur en garantissant que les modèles peuvent fonctionner de manière fiable et cohérente dans un large éventail de conditions du monde réel. |
Élevez vos modèles PNL avec une augmentation automatisée des données pour des performances améliorées | Dans cet article, nous expliquons comment l'augmentation automatisée des données peut dynamiser vos modèles NLP et améliorer leurs performances et comment nous y parvenons à l'aide de LangTest. |
Atténuer les stéréotypes de genre et professionnels dans l'IA : évaluation des modèles avec le test de biais Wino via la bibliothèque Langtest | Dans cet article, nous discutons de la manière dont nous pouvons tester le « biais Wino » à l'aide de LangTest. Il fait spécifiquement référence au test des biais résultant de stéréotypes professionnels de genre. |
Automatisation de l'IA responsable : intégration de Hugging Face et LangTest pour des modèles plus robustes | Dans cet article, nous avons exploré l'intégration entre Hugging Face, votre source incontournable de modèles et d'ensembles de données PNL de pointe, et LangTest, l'arme secrète de votre pipeline PNL pour les tests et l'optimisation. |
Détection et évaluation du biais de flagornerie : une analyse des solutions LLM et IA | Dans cet article de blog, nous discutons du problème omniprésent du comportement flagorneur de l’IA et des défis qu’il présente dans le monde de l’intelligence artificielle. Nous explorons comment les modèles linguistiques donnent parfois la priorité à l’accord plutôt qu’à l’authenticité, entravant ainsi les conversations significatives et impartiales. En outre, nous dévoilons une solution potentielle révolutionnaire à ce problème, les données synthétiques, qui promettent de révolutionner la façon dont les compagnons de l'IA s'engagent dans les discussions, les rendant plus fiables et plus précises dans diverses conditions du monde réel. |
Démasquer la sensibilité du modèle linguistique dans les évaluations de négation et de toxicité | Dans cet article de blog, nous approfondissons la sensibilité des modèles linguistiques, en examinant comment les modèles gèrent les négations et la toxicité du langage. Grâce à ces tests, nous obtenons un aperçu de l'adaptabilité et de la réactivité des modèles, soulignant le besoin continu d'amélioration des modèles NLP. |
Dévoiler les préjugés dans les modèles linguistiques : perspectives de genre, de race, de handicap et socio-économiques | Dans cet article de blog, nous explorons les préjugés dans les modèles linguistiques, en nous concentrant sur le sexe, la race, le handicap et les facteurs socio-économiques. Nous évaluons ce biais à l'aide de l'ensemble de données CrowS-Pairs, conçu pour mesurer les biais stéréotypés. Pour remédier à ces préjugés, nous discutons de l'importance d'outils comme LangTest pour promouvoir l'équité dans les systèmes PNL. |
Démasquer les préjugés au sein de l'IA : comment le genre, l'origine ethnique, la religion et l'économie façonnent la PNL et au-delà | Dans cet article de blog, nous abordons les préjugés de l’IA sur la manière dont le genre, l’origine ethnique, la religion et l’économie façonnent les systèmes PNL. Nous avons discuté de stratégies visant à réduire les préjugés et à promouvoir l’équité dans les systèmes d’IA. |
Évaluation de grands modèles linguistiques sur les stéréotypes liés au genre et au travail à l'aide du test de biais Wino | Dans cet article de blog, nous nous penchons sur le test de l'ensemble de données WinoBias sur les LLM, en examinant la gestion par les modèles linguistiques des rôles de genre et professionnels, les mesures d'évaluation et les implications plus larges. Explorons l'évaluation des modèles de langage avec LangTest sur l'ensemble de données WinoBias et affrontons les défis liés à la lutte contre les biais dans l'IA. |
Rationalisation des flux de travail ML : intégration du suivi MLFlow avec LangTest pour des évaluations de modèles améliorées | Dans cet article de blog, nous abordons le besoin croissant d’un suivi transparent, systématique et complet des modèles. Entrez MLFlow et LangTest : deux outils qui, une fois combinés, créent une approche révolutionnaire du développement ML. |
Test des capacités de réponse aux questions des grands modèles de langage | Dans cet article de blog, nous examinons l'amélioration des capacités d'évaluation de l'assurance qualité à l'aide de la bibliothèque LangTest. Découvrez les différentes méthodes d'évaluation proposées par LangTest pour répondre aux complexités de l'évaluation des tâches de réponse aux questions (AQ). |
Évaluation des préjugés stéréotypés avec LangTest | Dans cet article de blog, nous nous concentrons sur l'utilisation de l'ensemble de données StereoSet pour évaluer les préjugés liés au sexe, à la profession et à la race. |
Test de la robustesse des modèles d'analyse des sentiments basés sur LSTM | Explorez la robustesse des modèles personnalisés avec LangTest Insights. |
LangTest Insights : une plongée approfondie dans la robustesse du LLM sur OpenBookQA | Explorez la robustesse des modèles de langage (LLM) sur l'ensemble de données OpenBookQA avec LangTest Insights. |
LangTest : une arme secrète pour améliorer la robustesse de vos modèles de langage Transformers | Explorez la robustesse des modèles de langage Transformers avec LangTest Insights. |
Maîtriser l'évaluation du modèle : présentation du système complet de classement et de classement dans LangTest | Le système Model Ranking & Leaderboard de LangTest de John Snow Labs propose une approche systématique pour évaluer les modèles d'IA avec un classement complet, des comparaisons historiques et des informations spécifiques aux ensembles de données, permettant aux chercheurs et aux data scientists de prendre des décisions basées sur les données sur les performances du modèle. |
Évaluation des réponses longues avec Prometheus-Eval et Langtest | Prometheus-Eval et LangTest s'unissent pour offrir une solution open source, fiable et rentable pour évaluer les réponses longues, combinant les performances de niveau GPT-4 de Prometheus et le cadre de test robuste de LangTest pour fournir des commentaires détaillés et interprétables et une grande précision dans évaluations. |
Assurer la précision des LLM dans le domaine médical : le défi de l’échange de noms de médicaments | Une identification précise du nom des médicaments est cruciale pour la sécurité des patients. Le test de GPT-4o avec le test de conversion drug_generic_to_brand de LangTest a révélé des erreurs potentielles dans la prédiction des noms de médicaments lorsque les noms de marque sont remplacés par des ingrédients, soulignant la nécessité d'un raffinement continu et de tests rigoureux pour garantir l'exactitude et la fiabilité du LLM médical. |
Remarque Pour consulter tous les blogs, rendez-vous sur Blogs
#langtest
Bien que l’on parle beaucoup de la nécessité de former des modèles d’IA sûrs, robustes et équitables, peu d’outils ont été mis à la disposition des data scientists pour atteindre ces objectifs. En conséquence, la première ligne des modèles PNL dans les systèmes de production reflète un état de fait désolant.
Nous proposons ici un projet communautaire open source à un stade précoce qui vise à combler cette lacune, et serions ravis que vous nous rejoigniez dans cette mission. Nous visons à nous appuyer sur les bases posées par des recherches antérieures telles que celles de Ribeiro et al. (2020), Song et coll. (2020), Parrish et coll. (2021), van Aken et coll. (2021) et bien d’autres.
John Snow Labs dispose d'une équipe de développement complète affectée au projet et s'engage à améliorer la bibliothèque pendant des années, comme nous le faisons avec d'autres bibliothèques open source. Attendez-vous à des versions fréquentes avec de nouveaux types de tests, tâches, langages et plates-formes ajoutés régulièrement. Nous sommes impatients de travailler ensemble pour faire de la PNL sûre, fiable et responsable une réalité quotidienne.
Remarque Pour l'utilisation et la documentation, rendez-vous sur langtest.org
Nous acceptons toutes sortes de contributions :
Un aperçu détaillé de la contribution peut être trouvé dans le guide de contribution .
Si vous souhaitez commencer à travailler avec la base de code LangTest, accédez à l'onglet « problèmes » de GitHub et commencez à examiner les problèmes intéressants. Vous trouverez ci-dessous un certain nombre de questions par lesquelles vous pouvez commencer. Ou peut-être qu'en utilisant LangTest, vous avez votre propre idée ou que vous recherchez quelque chose dans la documentation et que vous pensez « Cela peut être amélioré »... vous pouvez faire quelque chose à ce sujet !
N'hésitez pas à poser des questions sur les discussions questions-réponses.
En tant que contributeurs et responsables de ce projet, vous devez respecter le code de conduite de LangTest. Pour plus d'informations, consultez : Code de conduite des contributeurs
Nous avons publié un article que vous pouvez citer pour la bibliothèque LangTest :
@article { nazir2024langtest ,
title = { LangTest: A comprehensive evaluation library for custom LLM and NLP models } ,
author = { Arshaan Nazir, Thadaka Kalyan Chakravarthy, David Amore Cecchini, Rakshit Khajuria, Prikshit Sharma, Ali Tarik Mirik, Veysel Kocaman and David Talby } ,
journal = { Software Impacts } ,
pages = { 100619 } ,
year = { 2024 } ,
publisher = { Elsevier }
}
Nous tenons à remercier tous les contributeurs de ce projet communautaire open source.
LangTest est publié sous la licence Apache 2.0, qui garantit l'utilisation commerciale, la modification, la distribution, l'utilisation des brevets, l'utilisation privée et fixe les limites de l'utilisation de la marque, de la responsabilité et de la garantie.