เฟรมเวิร์กโอเพ่นซอร์สเพื่อประเมิน ทดสอบ และตรวจสอบระบบที่ขับเคลื่อนด้วย ML และ LLM
เอกสารประกอบ | ชุมชน Discord | บล็อก | ทวิตเตอร์ | เห็นได้ชัดว่าคลาวด์
ชัดเจน 0.4.25 . การประเมิน LLM -> บทช่วยสอน
เห็นได้ชัดว่าเป็นไลบรารี Python แบบโอเพ่นซอร์สสำหรับการประเมินและความสามารถในการสังเกตของ ML และ LLM ช่วยประเมิน ทดสอบ และตรวจสอบระบบที่ขับเคลื่อนด้วย AI และไปป์ไลน์ข้อมูลจากการทดลองไปจนถึงการผลิต
เห็นได้ชัดว่าเป็นแบบแยกส่วนมาก คุณสามารถเริ่มต้นด้วยการประเมินแบบครั้งเดียวโดยใช้ Reports
หรือ Test Suites
ใน Python หรือรับบริการ Dashboard
การตรวจสอบแบบเรียลไทม์
รายงาน จะคำนวณข้อมูลต่างๆ ตัวชี้วัดคุณภาพ ML และ LLM คุณสามารถเริ่มต้นด้วยการตั้งค่าล่วงหน้าหรือปรับแต่งได้
รายงาน |
---|
ชุดทดสอบ ตรวจสอบเงื่อนไขที่กำหนดไว้ในค่าเมตริก และส่งคืนผลลัพธ์ที่ผ่านหรือไม่ผ่าน
gt
(มากกว่า), lt
(น้อยกว่า) ฯลฯชุดทดสอบ |
---|
บริการ การตรวจสอบ UI ช่วยให้เห็นภาพการวัดและผลการทดสอบเมื่อเวลาผ่านไป
คุณสามารถเลือก:
Evidently Cloud นำเสนอ Free Tier และฟีเจอร์พิเศษ เช่น การจัดการผู้ใช้ การแจ้งเตือน และการประเมินแบบไม่ต้องเขียนโค้ด
แดชบอร์ด |
---|
เห็นได้ชัดว่ามีให้เป็นแพ็คเกจ PyPI หากต้องการติดตั้งโดยใช้ pip package manager ให้รัน:
pip install evidently
หากต้องการติดตั้งอย่างเห็นได้ชัดโดยใช้ตัวติดตั้ง conda ให้รัน:
conda install -c conda-forge evidently
นี่คือ Hello World ที่เรียบง่าย ตรวจสอบบทช่วยสอนเพิ่มเติม: ข้อมูลแบบตารางหรือการประเมิน LLM
นำเข้า ชุดทดสอบ ชุดข้อมูลพรีเซ็ตการประเมิน และชุดข้อมูลตารางของเล่น
import pandas as pd
from sklearn import datasets
from evidently . test_suite import TestSuite
from evidently . test_preset import DataStabilityTestPreset
iris_data = datasets . load_iris ( as_frame = True )
iris_frame = iris_data . frame
แยก DataFrame
ออกเป็นข้อมูลอ้างอิงและปัจจุบัน เรียกใช้ชุดทดสอบ ความเสถียรของข้อมูล ที่จะสร้างการตรวจสอบช่วงค่าคอลัมน์ ค่าที่หายไป ฯลฯ จากการอ้างอิงโดยอัตโนมัติ รับผลลัพธ์ในสมุดบันทึก Jupyter:
data_stability = TestSuite ( tests = [
DataStabilityTestPreset (),
])
data_stability . run ( current_data = iris_frame . iloc [: 60 ], reference_data = iris_frame . iloc [ 60 :], column_mapping = None )
data_stability
คุณยังสามารถบันทึกไฟล์ HTML ได้อีกด้วย คุณจะต้องเปิดจากโฟลเดอร์ปลายทาง
data_stability . save_html ( "file.html" )
วิธีรับเอาต์พุตเป็น JSON:
data_stability . json ()
คุณสามารถเลือกค่าที่ตั้งล่วงหน้าอื่นๆ การทดสอบแต่ละรายการ และกำหนดเงื่อนไขได้
นำเข้าชุด ข้อมูลรายงาน การประเมินที่กำหนดไว้ล่วงหน้า และชุดข้อมูลแบบตารางของเล่น
import pandas as pd
from sklearn import datasets
from evidently . report import Report
from evidently . metric_preset import DataDriftPreset
iris_data = datasets . load_iris ( as_frame = True )
iris_frame = iris_data . frame
เรียกใช้รายงาน Data Drift ที่จะเปรียบเทียบการแจกแจงคอลัมน์ระหว่าง current
และ reference
:
data_drift_report = Report ( metrics = [
DataDriftPreset (),
])
data_drift_report . run ( current_data = iris_frame . iloc [: 60 ], reference_data = iris_frame . iloc [ 60 :], column_mapping = None )
data_drift_report
บันทึกรายงานเป็น HTML คุณจะต้องเปิดจากโฟลเดอร์ปลายทางในภายหลัง
data_drift_report . save_html ( "file.html" )
วิธีรับเอาต์พุตเป็น JSON:
data_drift_report . json ()
คุณสามารถเลือกค่าที่ตั้งไว้ล่วงหน้าและตัวชี้วัดแต่ละรายการ รวมถึงการประเมิน LLM สำหรับข้อมูลข้อความ
นี่เป็นการเปิดตัวโปรเจ็กต์สาธิตใน Evidently UI ตรวจสอบบทช่วยสอนสำหรับการโฮสต์ด้วยตนเองหรือระบบคลาวด์ที่ชัดเจน
ขั้นตอนที่แนะนำ: สร้างสภาพแวดล้อมเสมือนและเปิดใช้งาน
pip install virtualenv
virtualenv venv
source venv/bin/activate
หลังจากติดตั้ง Evidently ( pip install evidently
) ให้รัน Evidently UI ด้วยโปรเจ็กต์สาธิต:
evidently ui --demo-projects all
เข้าถึงบริการ UI ที่ชัดเจนในเบราว์เซอร์ของคุณ ไปที่ localhost:8000
เห็นได้ชัดว่ามีการประเมินในตัวมากกว่า 100 รายการ คุณยังสามารถเพิ่มรายการที่กำหนดเองได้ เมตริกแต่ละรายการมีตัวเลือกการแสดงภาพ: คุณสามารถใช้ใน Reports
Test Suites
หรือลงจุดบน Dashboard
นี่คือตัวอย่างสิ่งที่คุณสามารถตรวจสอบได้:
- คำอธิบายข้อความ | เอาต์พุต LLM |
ความยาว ความรู้สึก ความเป็นพิษ ภาษา สัญลักษณ์พิเศษ การจับคู่นิพจน์ทั่วไป ฯลฯ | ความคล้ายคลึงกันทางความหมาย ความเกี่ยวข้องในการดึงข้อมูล คุณภาพการสรุป ฯลฯ ด้วยการประเมินตามแบบจำลองและ LLM |
- คุณภาพของข้อมูล | การกระจายข้อมูลล่องลอย |
ค่าที่หายไป, รายการซ้ำ, ช่วงต่ำสุด-สูงสุด, ค่าหมวดหมู่ใหม่, ความสัมพันธ์ ฯลฯ | การทดสอบทางสถิติและการวัดระยะทางมากกว่า 20 รายการเพื่อเปรียบเทียบการเปลี่ยนแปลงในการกระจายข้อมูล |
การจำแนกประเภท | - การถดถอย |
ความแม่นยำ ความแม่นยำ การเรียกคืน ROC AUC เมทริกซ์ความสับสน อคติ ฯลฯ | MAE, ME, RMSE, การกระจายข้อผิดพลาด, ความเป็นมาตรฐานของข้อผิดพลาด, อคติของข้อผิดพลาด ฯลฯ |
- อันดับ (รวม RAG) | - ข้อแนะนำ |
NDCG, แผนที่, MRR, อัตราการเข้าชม ฯลฯ | Serendipity ความแปลกใหม่ ความหลากหลาย อคติความนิยม ฯลฯ |
เรายินดีรับการมีส่วนร่วม! อ่านคู่มือเพื่อเรียนรู้เพิ่มเติม
สำหรับข้อมูลเพิ่มเติม โปรดดูเอกสารประกอบฉบับสมบูรณ์ คุณสามารถเริ่มต้นด้วยบทช่วยสอน:
ดูตัวอย่างเพิ่มเติมในเอกสาร
สำรวจคำแนะนำวิธีใช้เพื่อทำความเข้าใจคุณสมบัติเฉพาะใน Evidently
หากคุณต้องการแชทและเชื่อมต่อ เข้าร่วมชุมชน Discord ของเรา!