Kerangka kerja sumber terbuka untuk mengevaluasi, menguji, dan memantau sistem yang didukung ML dan LLM.
Dokumentasi | Komunitas Perselisihan | Blog | Twitter | Rupanya Awan
Rupanya 0.4.25 . Evaluasi LLM -> Tutorial
Terbukti merupakan pustaka Python sumber terbuka untuk evaluasi dan observasi ML dan LLM. Ini membantu mengevaluasi, menguji, dan memantau sistem dan saluran data yang didukung AI mulai dari eksperimen hingga produksi.
Ternyata sangat modular. Anda dapat memulai dengan evaluasi satu kali menggunakan Reports
atau Test Suites
dengan Python atau mendapatkan layanan Dashboard
pemantauan waktu nyata.
Laporan menghitung berbagai data, metrik kualitas ML dan LLM. Anda dapat memulai dengan Preset atau menyesuaikan.
Laporan |
---|
Test Suites memeriksa kondisi yang ditentukan pada nilai metrik dan mengembalikan hasil lulus atau gagal.
gt
(lebih besar dari), lt
(kurang dari), dll.Rangkaian Tes |
---|
Layanan pemantauan UI membantu memvisualisasikan metrik dan hasil pengujian dari waktu ke waktu.
Anda dapat memilih:
Terbukti Cloud menawarkan tingkat gratis yang melimpah dan fitur tambahan seperti manajemen pengguna, peringatan, dan evaluasi tanpa kode.
Dasbor |
---|
Rupanya tersedia sebagai paket PyPI. Untuk menginstalnya menggunakan manajer paket pip, jalankan:
pip install evidently
Untuk menginstal Terbukti menggunakan conda installer, jalankan:
conda install -c conda-forge evidently
Ini adalah Halo Dunia yang sederhana. Periksa Tutorial untuk mengetahui lebih lanjut: Data tabular atau evaluasi LLM.
Impor Test Suite , Preset evaluasi, dan kumpulan data tabel mainan.
import pandas as pd
from sklearn import datasets
from evidently . test_suite import TestSuite
from evidently . test_preset import DataStabilityTestPreset
iris_data = datasets . load_iris ( as_frame = True )
iris_frame = iris_data . frame
Pisahkan DataFrame
menjadi referensi dan arus. Jalankan Rangkaian Uji Stabilitas Data yang secara otomatis akan menghasilkan pemeriksaan pada rentang nilai kolom, nilai yang hilang, dll. dari referensi. Dapatkan hasilnya di notebook Jupyter:
data_stability = TestSuite ( tests = [
DataStabilityTestPreset (),
])
data_stability . run ( current_data = iris_frame . iloc [: 60 ], reference_data = iris_frame . iloc [ 60 :], column_mapping = None )
data_stability
Anda juga dapat menyimpan file HTML. Anda harus membukanya dari folder tujuan.
data_stability . save_html ( "file.html" )
Untuk mendapatkan output sebagai JSON:
data_stability . json ()
Anda dapat memilih Preset lain, Tes individual, dan kondisi yang ditetapkan.
Impor Laporan , evaluasi Preset, dan kumpulan data tabel mainan.
import pandas as pd
from sklearn import datasets
from evidently . report import Report
from evidently . metric_preset import DataDriftPreset
iris_data = datasets . load_iris ( as_frame = True )
iris_frame = iris_data . frame
Jalankan Laporan Penyimpangan Data yang akan membandingkan distribusi kolom antara current
dan reference
:
data_drift_report = Report ( metrics = [
DataDriftPreset (),
])
data_drift_report . run ( current_data = iris_frame . iloc [: 60 ], reference_data = iris_frame . iloc [ 60 :], column_mapping = None )
data_drift_report
Simpan laporan sebagai HTML. Nanti Anda harus membukanya dari folder tujuan.
data_drift_report . save_html ( "file.html" )
Untuk mendapatkan output sebagai JSON:
data_drift_report . json ()
Anda dapat memilih Preset lain dan Metrik individual, termasuk evaluasi LLM untuk data teks.
Ini meluncurkan proyek demo di UI Terbukti. Periksa tutorial untuk Self-hosting atau Evidently Cloud.
Langkah yang disarankan: buat lingkungan virtual dan aktifkan.
pip install virtualenv
virtualenv venv
source venv/bin/activate
Setelah menginstal Evidently ( pip install evidently
), jalankan UI Evidently dengan proyek demo:
evidently ui --demo-projects all
Akses layanan Evidently UI di browser Anda. Pergi ke localhost:8000 .
Terbukti memiliki 100+ evaluasi bawaan. Anda juga dapat menambahkan yang khusus. Setiap metrik memiliki visualisasi opsional: Anda dapat menggunakannya di Reports
, Test Suites
, atau plot di Dashboard
.
Berikut ini contoh hal yang dapat Anda periksa:
? Deskriptor teks | keluaran LLM |
Panjang, sentimen, toksisitas, bahasa, simbol khusus, kecocokan ekspresi reguler, dll. | Kesamaan semantik, relevansi pengambilan, kualitas ringkasan, dll. dengan evaluasi berbasis model dan LLM. |
? Kualitas data | Penyimpangan distribusi data |
Nilai hilang, duplikat, rentang min-maks, nilai kategorikal baru, korelasi, dll. | 20+ uji statistik dan metrik jarak untuk membandingkan pergeseran distribusi data. |
Klasifikasi | ? Regresi |
Akurasi, presisi, perolehan kembali, ROC AUC, matriks konfusi, bias, dll. | MAE, ME, RMSE, distribusi kesalahan, normalitas kesalahan, bias kesalahan, dll. |
? Pemeringkatan (inc.RAG) | ? Rekomendasi |
NDCG, MAP, MRR, Hit Rate, dll. | Kebetulan, kebaruan, keragaman, bias popularitas, dll. |
Kami menyambut kontribusi! Baca Panduan untuk mempelajari lebih lanjut.
Untuk informasi lebih lanjut, lihat Dokumentasi lengkap. Anda bisa mulai dengan tutorialnya:
Lihat contoh lainnya di Dokumen.
Jelajahi panduan Cara untuk memahami fitur spesifik di Evidently.
Jika Anda ingin mengobrol dan terhubung, bergabunglah dengan komunitas Discord kami!