项目网站 • 主要功能 • 如何使用 • 基准数据集 • 社区支持 • 贡献 • 使命 • 许可证
请查看我们的官方页面以获取用户文档和示例:langtest.org
LangTest 附带不同的数据集来测试您的模型,涵盖广泛的用例和评估场景。您可以探索此处提供的所有基准数据集,每个数据集都经过精心策划,以挑战和增强您的语言模型。无论您专注于问答、文本摘要等,LangTest 都能确保您拥有正确的数据,将您的模型推向极限,并在各种语言任务中实现最佳性能。
# Install langtest
!p ip install langtest [ transformers ]
# Import and create a Harness object
from langtest import Harness
h = Harness ( task = 'ner' , model = { "model" : 'dslim/bert-base-NER' , "hub" : 'huggingface' })
# Generate test cases, run them and view a report
h . generate (). run (). report ()
注意有关使用和文档的更多扩展示例,请访问 langtest.org
您可以查看以下 LangTest 文章:
博客 | 描述 |
---|---|
自动测试大型语言模型生成的临床治疗计划中的人口统计偏差 | 帮助理解和测试法学硕士生成的临床治疗计划中的人口统计学偏差。 |
LangTest:通过端到端 NLP 管道揭示并修复偏差 | LangTest 中的端到端语言管道使 NLP 从业者能够通过全面、数据驱动和迭代的方法解决语言模型中的偏差。 |
超越准确性:使用 LangTest 对命名实体识别模型进行鲁棒性测试 | 虽然准确性无疑至关重要,但稳健性测试通过确保模型能够在各种现实条件下可靠且一致地执行,将自然语言处理 (NLP) 模型评估提升到一个新的水平。 |
通过自动数据增强提升您的 NLP 模型以增强性能 | 在本文中,我们讨论自动数据增强如何增强您的 NLP 模型并提高其性能,以及我们如何使用 LangTest 来实现这一点。 |
减轻人工智能中的性别职业刻板印象:通过 Langtest 库使用 Wino 偏差测试评估模型 | 在本文中,我们讨论如何使用 LangTest 来测试“Wino Bias”。它特指测试因性别职业刻板印象而产生的偏见。 |
自动化负责任的人工智能:集成 Hugging Face 和 LangTest 以实现更稳健的模型 | 在本文中,我们探讨了 Hugging Face(最先进的 NLP 模型和数据集的首选来源)与 LangTest(NLP 管道测试和优化的秘密武器)之间的集成。 |
检测和评估阿谀奉承偏差:法学硕士和人工智能解决方案分析 | 在这篇博文中,我们讨论了普遍存在的阿谀奉承的人工智能行为问题及其在人工智能领域带来的挑战。我们探讨语言模型有时如何优先考虑一致而非真实性,从而阻碍有意义和公正的对话。此外,我们针对这个问题推出了一种潜在的改变游戏规则的解决方案,即合成数据,它有望彻底改变人工智能同伴参与讨论的方式,使它们在各种现实条件下更加可靠和准确。 |
揭示否定和毒性评估中语言模型的敏感性 | 在这篇博文中,我们深入研究了语言模型敏感性,研究模型如何处理语言中的否定和毒性。通过这些测试,我们深入了解模型的适应性和响应能力,强调 NLP 模型需要不断改进。 |
揭示语言模型中的偏见:性别、种族、残疾和社会经济视角 | 在这篇博文中,我们探讨了语言模型中的偏见,重点关注性别、种族、残疾和社会经济因素。我们使用 CrowS-Pairs 数据集来评估这种偏差,该数据集旨在测量刻板印象偏差。为了解决这些偏见,我们讨论了 LangTest 等工具在促进 NLP 系统公平性方面的重要性。 |
揭露人工智能中的偏见:性别、种族、宗教和经济如何塑造 NLP 及其他领域 | 在这篇博文中,我们将解决人工智能在性别、种族、宗教和经济如何塑造 NLP 系统方面的偏见。我们讨论了减少人工智能系统偏见和促进公平的策略。 |
使用 Wino 偏差测试评估性别职业刻板印象的大型语言模型 | 在这篇博文中,我们深入研究了法学硕士的 WinoBias 数据集,检查语言模型对性别和职业角色的处理、评估指标以及更广泛的影响。让我们探索在 WinoBias 数据集上使用 LangTest 评估语言模型,并应对解决 AI 偏见的挑战。 |
简化 ML 工作流程:将 MLFlow 跟踪与 LangTest 集成以增强模型评估 | 在这篇博文中,我们深入探讨了对透明、系统和全面的模型跟踪日益增长的需求。 MLFlow 和 LangTest:这两个工具结合起来,创造了一种革命性的 ML 开发方法。 |
测试大型语言模型的问答能力 | 在这篇博文中,我们将深入探讨使用 LangTest 库增强 QA 评估能力。探索 LangTest 提供的不同评估方法,以解决评估问答 (QA) 任务的复杂性。 |
使用 LangTest 评估刻板印象偏差 | 在这篇博文中,我们重点讨论使用 StereoSet 数据集来评估与性别、职业和种族相关的偏见。 |
测试基于 LSTM 的情感分析模型的稳健性 | 使用 LangTest Insights 探索自定义模型的稳健性。 |
LangTest 见解:深入探讨 OpenBookQA 上的 LLM 稳健性 | 使用 LangTest Insights 探索 OpenBookQA 数据集上语言模型 (LLM) 的稳健性。 |
LangTest:提高 Transformers 语言模型鲁棒性的秘密武器 | 使用 LangTest Insights 探索 Transformers 语言模型的稳健性。 |
掌握模型评估:引入LangTest综合排名和排行榜系统 | John Snow Labs 的 LangTest 的模型排名和排行榜系统提供了一种系统方法,通过综合排名、历史比较和特定于数据集的见解来评估 AI 模型,使研究人员和数据科学家能够就模型性能做出数据驱动的决策。 |
使用 Prometheus-Eval 和 Langtest 评估长格式响应 | Prometheus-Eval 和 LangTest 联合提供开源、可靠且经济高效的解决方案,用于评估长格式响应,结合 Prometheus 的 GPT-4 级性能和 LangTest 强大的测试框架,以提供详细、可解释的反馈和高精度。评估。 |
确保医学领域法学硕士的准确性:药物名称交换的挑战 | 准确的药品名称识别对于患者安全至关重要。使用 LangTest 的drug_generic_to_brand转换测试对 GPT-4o 进行测试,发现当品牌名称被成分替换时,预测药物名称可能会出现错误,这凸显了持续改进和严格测试的必要性,以确保医学 LLM 的准确性和可靠性。 |
注意要检查所有博客,请转到博客
#langtest
频道尽管有很多关于需要训练安全、稳健和公平的人工智能模型的讨论,但数据科学家可以使用的工具很少来实现这些目标。因此,生产系统中 NLP 模型的前线反映了令人遗憾的状况。
我们在此提出一个早期阶段的开源社区项目,旨在填补这一空白,并希望您加入我们来完成这一使命。我们的目标是建立在 Ribeiro 等人之前的研究奠定的基础上。 (2020),宋等人。 (2020),帕里什等人。 (2021),范阿肯等人。 (2021)和许多其他。
John Snow Labs 拥有一支完整的开发团队分配给该项目,并致力于多年来改进该库,就像我们对其他开源库所做的那样。预计频繁发布会定期添加新的测试类型、任务、语言和平台。我们期待共同努力,使安全、可靠和负责任的 NLP 成为日常生活的现实。
注意有关使用和文档,请访问 langtest.org
我们欢迎各种贡献:
贡献的详细概述可以在贡献指南中找到。
如果您想开始使用 LangTest 代码库,请导航到 GitHub“问题”选项卡并开始查找有趣的问题。下面列出了您可以从哪里开始的许多问题。或者也许通过使用 LangTest,您有自己的想法,或者正在文档中寻找某些内容并认为“这可以改进”...您可以对此做一些事情!
欢迎在问答讨论中提问。
作为该项目的贡献者和维护者,您应该遵守 LangTest 的行为准则。更多信息请参见:贡献者行为准则
我们已经发表了一篇论文,您可以为 LangTest 库引用:
@article { nazir2024langtest ,
title = { LangTest: A comprehensive evaluation library for custom LLM and NLP models } ,
author = { Arshaan Nazir, Thadaka Kalyan Chakravarthy, David Amore Cecchini, Rakshit Khajuria, Prikshit Sharma, Ali Tarik Mirik, Veysel Kocaman and David Talby } ,
journal = { Software Impacts } ,
pages = { 100619 } ,
year = { 2024 } ,
publisher = { Elsevier }
}
我们要感谢这个开源社区项目的所有贡献者。
LangTest 是在 Apache License 2.0 下发布的,该许可证保证商业使用、修改、分发、专利使用、私人使用,并对商标使用、责任和保证设置限制。