ML および LLM を利用したシステムを評価、テスト、監視するためのオープンソース フレームワーク。
ドキュメント |ディスコードコミュニティ |ブログ |ツイッター |明らかにクラウド
明らかに 0.4.25 です。 LLM 評価 -> チュートリアル
明らかに、ML および LLM の評価と可観測性のためのオープンソース Python ライブラリです。実験から本番まで、AI を活用したシステムとデータ パイプラインの評価、テスト、監視に役立ちます。
明らかに非常にモジュール化されています。 Python のReports
またはTest Suites
使用して 1 回限りの評価を開始することも、リアルタイム監視Dashboard
サービスを入手することもできます。
レポートは、さまざまなデータ、ML および LLM 品質メトリクスを計算します。プリセットから始めることも、カスタマイズすることもできます。
レポート |
---|
テスト スイートは、メトリック値に対して定義された条件をチェックし、合格または不合格の結果を返します。
gt
(より大きい)、 lt
(より小さい) などとして設定する簡単な構文。テストスイート |
---|
モニタリング UIサービスは、時間の経過に伴うメトリクスとテスト結果を視覚化するのに役立ちます。
以下を選択できます。
明らかに、クラウドは寛大な無料枠と、ユーザー管理、アラート、ノーコード評価などの追加機能を提供します。
ダッシュボード |
---|
明らかに PyPI パッケージとして利用可能です。 pip パッケージ マネージャーを使用してインストールするには、次を実行します。
pip install evidently
conda インストーラーを使用してインストールするには、次のコマンドを実行します。
conda install -c conda-forge evidently
これは単純な Hello World です。詳細については、チュートリアルを確認してください: 表形式のデータまたは LLM 評価。
テスト スイート、評価プリセット、およびおもちゃの表形式データセットをインポートします。
import pandas as pd
from sklearn import datasets
from evidently . test_suite import TestSuite
from evidently . test_preset import DataStabilityTestPreset
iris_data = datasets . load_iris ( as_frame = True )
iris_frame = iris_data . frame
DataFrame
に分割します。データ安定性テスト スイートを実行すると、参照から列の値の範囲や欠損値などのチェックが自動的に生成されます。 Jupyter ノートブックで出力を取得します。
data_stability = TestSuite ( tests = [
DataStabilityTestPreset (),
])
data_stability . run ( current_data = iris_frame . iloc [: 60 ], reference_data = iris_frame . iloc [ 60 :], column_mapping = None )
data_stability
HTML ファイルを保存することもできます。宛先フォルダーから開く必要があります。
data_stability . save_html ( "file.html" )
出力を JSON として取得するには:
data_stability . json ()
他のプリセット、個別のテストを選択し、条件を設定することができます。
Report 、評価プリセット、およびおもちゃの表形式データセットをインポートします。
import pandas as pd
from sklearn import datasets
from evidently . report import Report
from evidently . metric_preset import DataDriftPreset
iris_data = datasets . load_iris ( as_frame = True )
iris_frame = iris_data . frame
current
とreference
間で列の分布を比較するデータ ドリフトレポートを実行します。
data_drift_report = Report ( metrics = [
DataDriftPreset (),
])
data_drift_report . run ( current_data = iris_frame . iloc [: 60 ], reference_data = iris_frame . iloc [ 60 :], column_mapping = None )
data_drift_report
レポートを HTML として保存します。後で、宛先フォルダーから開く必要があります。
data_drift_report . save_html ( "file.html" )
出力を JSON として取得するには:
data_drift_report . json ()
テキスト データの LLM 評価を含む、他のプリセットや個別のメトリクスを選択できます。
これにより、Evidently UI でデモ プロジェクトが起動します。セルフホスティングまたは明らかにクラウドのチュートリアルを確認してください。
推奨される手順: 仮想環境を作成し、アクティブ化します。
pip install virtualenv
virtualenv venv
source venv/bin/activate
Evidently をインストールした後 ( pip install evidently
)、デモ プロジェクトで Evidently UI を実行します。
evidently ui --demo-projects all
ブラウザで Evidently UI サービスにアクセスします。 localhost:8000に移動します。
明らかに 100 以上の評価が組み込まれています。カスタムのものを追加することもできます。各メトリクスにはオプションの視覚化があり、 Reports
、 Test Suites
、またはDashboard
上のプロットで使用できます。
確認できる項目の例は次のとおりです。
?テキスト記述子 | LLM出力 |
長さ、感情、毒性、言語、特殊記号、正規表現の一致など。 | モデルベースおよび LLM ベースの評価による意味的な類似性、検索の関連性、要約の品質など。 |
?データ品質 | データ分布のドリフト |
欠損値、重複、最小値と最大値の範囲、新しいカテゴリ値、相関関係など。 | データ分布の変化を比較するための 20 以上の統計テストと距離メトリック。 |
分類 | ?回帰 |
精度、適合率、再現率、ROC AUC、混同行列、バイアスなど。 | MAE、ME、RMSE、誤差分布、誤差正規性、誤差バイアスなど |
?ランキング(RAG含む) | ?推奨事項 |
NDCG、MAP、MRR、ヒット率など | セレンディピティ、新規性、多様性、人気の偏りなど。 |
寄付を歓迎します!詳細については、ガイドをお読みください。
詳細については、完全なドキュメントを参照してください。次のチュートリアルから始めることができます。
ドキュメントでその他の例を参照してください。
Evidently の特定の機能を理解するには、ハウツー ガイドを参照してください。
チャットしたりつながりたい場合は、Discord コミュニティに参加してください。