用於評估、測試和監控 ML 和 LLM 支援的系統的開源框架。
文檔 |不和諧社區 |部落格 |推特 |明顯雲
顯然是 0.4.25 。 LLM評估->教程
Evidently 是一個用於 ML 和 LLM 評估和可觀察性的開源 Python 函式庫。它有助於評估、測試和監控人工智慧驅動的系統以及從實驗到生產的數據管道。
顯然是非常模組化的。您可以使用 Python 中的Reports
或Test Suites
開始一次性評估,或取得即時監控Dashboard
服務。
報告計算各種數據、ML 和 LLM 品質指標。您可以從預設或自訂開始。
報告 |
---|
測試套件檢查指標值的定義條件並傳回通過或失敗結果。
gt
(大於)、 lt
(小於)等的簡單語法。測試套件 |
---|
監控 UI服務有助於視覺化指標和測試結果。
您可以選擇:
顯然,雲端提供了慷慨的免費套餐和額外功能,例如用戶管理、警報和無代碼評估。
儀表板 |
---|
顯然可以作為 PyPI 包使用。若要使用 pip 套件管理器安裝它,請執行:
pip install evidently
若要使用 conda 安裝程式安裝 Evidently,請執行:
conda install -c conda-forge evidently
這是一個簡單的 Hello World。查看教學以了解更多資訊:表格數據或法學碩士評估。
匯入測試套件、評估預設和玩具表格資料集。
import pandas as pd
from sklearn import datasets
from evidently . test_suite import TestSuite
from evidently . test_preset import DataStabilityTestPreset
iris_data = datasets . load_iris ( as_frame = True )
iris_frame = iris_data . frame
將DataFrame
拆分為參考資料幀和目前資料幀。運行資料穩定性測試套件,該套件將根據參考自動產生對列值範圍、缺失值等的檢查。取得 Jupyter Notebook 中的輸出:
data_stability = TestSuite ( tests = [
DataStabilityTestPreset (),
])
data_stability . run ( current_data = iris_frame . iloc [: 60 ], reference_data = iris_frame . iloc [ 60 :], column_mapping = None )
data_stability
您也可以儲存 HTML 檔案。您需要從目標資料夾打開它。
data_stability . save_html ( "file.html" )
取得 JSON 格式的輸出:
data_stability . json ()
您可以選擇其他預設、單獨的測試和設定條件。
匯入報告、評估預設和玩具表格資料集。
import pandas as pd
from sklearn import datasets
from evidently . report import Report
from evidently . metric_preset import DataDriftPreset
iris_data = datasets . load_iris ( as_frame = True )
iris_frame = iris_data . frame
執行資料漂移報告,比較current
和reference
之間的列分佈:
data_drift_report = Report ( metrics = [
DataDriftPreset (),
])
data_drift_report . run ( current_data = iris_frame . iloc [: 60 ], reference_data = iris_frame . iloc [ 60 :], column_mapping = None )
data_drift_report
將報告另存為 HTML。您稍後需要從目標資料夾打開它。
data_drift_report . save_html ( "file.html" )
取得 JSON 格式的輸出:
data_drift_report . json ()
您可以選擇其他預設和單獨的指標,包括文字資料的 LLM 評估。
這將在 Evidently UI 中啟動一個示範專案。查看自架或 Evidently Cloud 的教學。
建議步驟:建立虛擬環境並啟動它。
pip install virtualenv
virtualenv venv
source venv/bin/activate
安裝 Evidently ( pip install evidently
) 後,使用示範專案執行 Evidently UI:
evidently ui --demo-projects all
在瀏覽器中存取 Evidly UI 服務。轉到localhost:8000 。
顯然有 100 多個內建評估。您也可以新增自訂的。每個指標都有一個可選的視覺化:您可以在Reports
、 Test Suites
中使用它,或在Dashboard
繪圖。
以下是您可以檢查的事項範例:
?文字描述符 | 法學碩士輸出 |
長度、情感、毒性、語言、特殊符號、正規表示式匹配等。 | 基於模型和 LLM 的評估的語意相似性、檢索相關性、摘要品質等。 |
?數據品質 | 數據分佈漂移 |
缺失值、重複值、最小-最大範圍、新分類值、相關性等。 | 20 多個統計測試和距離指標,用於比較資料分佈的變化。 |
分類 | ?回歸 |
準確率、精確率、回想率、ROC AUC、混淆矩陣、偏差等。 | MAE、ME、RMSE、誤差分佈、誤差常態性、誤差偏差等 |
?排名(包括 RAG) | ?建議 |
NDCG、MAP、MRR、命中率等 | 機緣巧合、新穎性、多樣性、流行偏見等。 |
我們歡迎貢獻!閱讀指南以了解更多資訊。
有關更多信息,請參閱完整的文檔。您可以從教學課程開始:
請參閱文件中的更多範例。
探索操作指南以了解 Evidently 中的特定功能。
如果您想聊天和聯繫,請加入我們的 Discord 社群!