用于评估、测试和监控 ML 和 LLM 支持的系统的开源框架。
文档 |不和谐社区 |博客 |推特 |明显云
显然是 0.4.25 。 LLM评估->教程
Evidently 是一个用于 ML 和 LLM 评估和可观察性的开源 Python 库。它有助于评估、测试和监控人工智能驱动的系统以及从实验到生产的数据管道。
显然是非常模块化的。您可以使用 Python 中的Reports
或Test Suites
开始一次性评估,或者获取实时监控Dashboard
服务。
报告计算各种数据、ML 和 LLM 质量指标。您可以从预设或自定义开始。
报告 |
---|
测试套件检查指标值的定义条件并返回通过或失败结果。
gt
(大于)、 lt
(小于)等的简单语法。测试套件 |
---|
监控 UI服务有助于可视化指标和测试结果。
您可以选择:
显然,云提供了慷慨的免费套餐和额外功能,例如用户管理、警报和无代码评估。
仪表板 |
---|
显然可以作为 PyPI 包使用。要使用 pip 包管理器安装它,请运行:
pip install evidently
要使用 conda 安装程序安装 Evidently,请运行:
conda install -c conda-forge evidently
这是一个简单的 Hello World。查看教程了解更多信息:表格数据或法学硕士评估。
导入测试套件、评估预设和玩具表格数据集。
import pandas as pd
from sklearn import datasets
from evidently . test_suite import TestSuite
from evidently . test_preset import DataStabilityTestPreset
iris_data = datasets . load_iris ( as_frame = True )
iris_frame = iris_data . frame
将DataFrame
拆分为参考数据帧和当前数据帧。运行数据稳定性测试套件,该套件将根据参考自动生成对列值范围、缺失值等的检查。获取 Jupyter Notebook 中的输出:
data_stability = TestSuite ( tests = [
DataStabilityTestPreset (),
])
data_stability . run ( current_data = iris_frame . iloc [: 60 ], reference_data = iris_frame . iloc [ 60 :], column_mapping = None )
data_stability
您还可以保存 HTML 文件。您需要从目标文件夹打开它。
data_stability . save_html ( "file.html" )
获取 JSON 格式的输出:
data_stability . json ()
您可以选择其他预设、单独的测试和设置条件。
导入报告、评估预设和玩具表格数据集。
import pandas as pd
from sklearn import datasets
from evidently . report import Report
from evidently . metric_preset import DataDriftPreset
iris_data = datasets . load_iris ( as_frame = True )
iris_frame = iris_data . frame
运行数据漂移报告,比较current
和reference
之间的列分布:
data_drift_report = Report ( metrics = [
DataDriftPreset (),
])
data_drift_report . run ( current_data = iris_frame . iloc [: 60 ], reference_data = iris_frame . iloc [ 60 :], column_mapping = None )
data_drift_report
将报告另存为 HTML。您稍后需要从目标文件夹打开它。
data_drift_report . save_html ( "file.html" )
获取 JSON 格式的输出:
data_drift_report . json ()
您可以选择其他预设和单独的指标,包括文本数据的 LLM 评估。
这将在 Evidently UI 中启动一个演示项目。查看自托管或 Evidently Cloud 的教程。
推荐步骤:创建虚拟环境并激活它。
pip install virtualenv
virtualenv venv
source venv/bin/activate
安装 Evidently ( pip install evidently
) 后,使用演示项目运行 Evidently UI:
evidently ui --demo-projects all
在浏览器中访问 Evidly UI 服务。转到localhost:8000 。
显然有 100 多个内置评估。您还可以添加自定义的。每个指标都有一个可选的可视化:您可以在Reports
、 Test Suites
中使用它,或在Dashboard
绘图。
以下是您可以检查的示例:
?文本描述符 | 法学硕士输出 |
长度、情感、毒性、语言、特殊符号、正则表达式匹配等。 | 基于模型和 LLM 的评估的语义相似性、检索相关性、摘要质量等。 |
?数据质量 | 数据分布漂移 |
缺失值、重复值、最小-最大范围、新分类值、相关性等。 | 20 多个统计测试和距离指标,用于比较数据分布的变化。 |
分类 | ?回归 |
准确率、精确率、召回率、ROC AUC、混淆矩阵、偏差等。 | MAE、ME、RMSE、误差分布、误差正态性、误差偏差等 |
?排名(包括 RAG) | ?建议 |
NDCG、MAP、MRR、命中率等 | 机缘巧合、新颖性、多样性、流行偏见等。 |
我们欢迎贡献!阅读指南以了解更多信息。
有关更多信息,请参阅完整的文档。您可以从教程开始:
请参阅文档中的更多示例。
探索操作指南以了解 Evidently 中的特定功能。
如果您想聊天和联系,请加入我们的 Discord 社区!