إطار عمل مفتوح المصدر لتقييم واختبار ومراقبة الأنظمة التي تعمل بتقنية ML وLLM.
التوثيق | مجتمع الخلاف | مدونة | تويتر | من الواضح سحابة
من الواضح 0.4.25 . تقييم LLM -> البرنامج التعليمي
من الواضح أنها مكتبة بايثون مفتوحة المصدر لتقييم وملاحظة ML وLLM. فهو يساعد في تقييم واختبار ومراقبة الأنظمة التي تعمل بالذكاء الاصطناعي وخطوط البيانات بدءًا من التجربة وحتى الإنتاج.
ومن الواضح أن وحدات للغاية. يمكنك البدء بتقييمات لمرة واحدة باستخدام Reports
أو Test Suites
في Python أو الحصول على خدمة Dashboard
للمراقبة في الوقت الفعلي.
تحسب التقارير البيانات المختلفة ومقاييس جودة ML وLLM. يمكنك البدء بالإعدادات المسبقة أو التخصيص.
التقارير |
---|
تتحقق مجموعات الاختبار من الشروط المحددة على القيم المترية وترجع نتيجة النجاح أو الفشل.
gt
(أكبر من)، lt
(أقل من)، وما إلى ذلك.جناح الاختبار |
---|
تساعد خدمة مراقبة واجهة المستخدم على تصور المقاييس ونتائج الاختبار بمرور الوقت.
يمكنك الاختيار:
تقدم Evidently Cloud طبقة مجانية سخية وميزات إضافية مثل إدارة المستخدم والتنبيه والتقييمات بدون تعليمات برمجية.
لوحة القيادة |
---|
من الواضح أنه متاح كحزمة PyPI. لتثبيته باستخدام pip package manager، قم بتشغيل:
pip install evidently
لتثبيت من الواضح باستخدام مثبت conda، قم بتشغيل:
conda install -c conda-forge evidently
هذا هو مرحبا العالم بسيط. تحقق من البرامج التعليمية للمزيد: البيانات الجدولية أو تقييم LLM.
قم باستيراد مجموعة الاختبار والتقييم المسبق ومجموعة البيانات الجدولية للعبة.
import pandas as pd
from sklearn import datasets
from evidently . test_suite import TestSuite
from evidently . test_preset import DataStabilityTestPreset
iris_data = datasets . load_iris ( as_frame = True )
iris_frame = iris_data . frame
قم بتقسيم DataFrame
إلى مرجع وحالي. قم بتشغيل مجموعة اختبار استقرار البيانات التي ستقوم تلقائيًا بإنشاء اختبارات على نطاقات قيم الأعمدة والقيم المفقودة وما إلى ذلك من المرجع. احصل على الإخراج في دفتر Jupyter:
data_stability = TestSuite ( tests = [
DataStabilityTestPreset (),
])
data_stability . run ( current_data = iris_frame . iloc [: 60 ], reference_data = iris_frame . iloc [ 60 :], column_mapping = None )
data_stability
يمكنك أيضًا حفظ ملف HTML. ستحتاج إلى فتحه من المجلد الوجهة.
data_stability . save_html ( "file.html" )
للحصول على الإخراج كـ JSON:
data_stability . json ()
يمكنك اختيار إعدادات مسبقة أخرى واختبارات فردية وتعيين الشروط.
قم باستيراد التقرير وتقييم الإعداد المسبق ومجموعة البيانات الجدولية للعبة.
import pandas as pd
from sklearn import datasets
from evidently . report import Report
from evidently . metric_preset import DataDriftPreset
iris_data = datasets . load_iris ( as_frame = True )
iris_frame = iris_data . frame
قم بتشغيل تقرير انجراف البيانات الذي سيقارن توزيعات الأعمدة بين current
reference
:
data_drift_report = Report ( metrics = [
DataDriftPreset (),
])
data_drift_report . run ( current_data = iris_frame . iloc [: 60 ], reference_data = iris_frame . iloc [ 60 :], column_mapping = None )
data_drift_report
احفظ التقرير بتنسيق HTML. ستحتاج لاحقًا إلى فتحه من المجلد الوجهة.
data_drift_report . save_html ( "file.html" )
للحصول على الإخراج كـ JSON:
data_drift_report . json ()
يمكنك اختيار إعدادات مسبقة ومقاييس فردية أخرى، بما في ذلك تقييمات LLM للبيانات النصية.
يؤدي هذا إلى إطلاق مشروع تجريبي في واجهة المستخدم الواضحة. تحقق من البرامج التعليمية للاستضافة الذاتية أو السحابة الواضحة.
الخطوة الموصى بها: إنشاء بيئة افتراضية وتفعيلها.
pip install virtualenv
virtualenv venv
source venv/bin/activate
بعد تثبيت Evidently ( pip install evidently
)، قم بتشغيل Evidently UI مع المشاريع التجريبية:
evidently ui --demo-projects all
قم بالوصول إلى خدمة واجهة المستخدم الواضحة في متصفحك. انتقل إلى المضيف المحلي: 8000 .
من الواضح أنه يحتوي على أكثر من 100 تقييم مدمج. يمكنك أيضًا إضافة تلك المخصصة. يحتوي كل مقياس على تصور اختياري: يمكنك استخدامه في Reports
أو Test Suites
أو الرسم على Dashboard
.
فيما يلي أمثلة على الأشياء التي يمكنك التحقق منها:
؟ واصفات النص | مخرجات LLM |
الطول، والمشاعر، والسمية، واللغة، والرموز الخاصة، ومطابقات التعبير العادي، وما إلى ذلك. | التشابه الدلالي، وأهمية الاسترجاع، وجودة التلخيص، وما إلى ذلك مع التقييمات المستندة إلى النموذج والماجستير في القانون. |
؟ جودة البيانات | الانحراف في توزيع البيانات |
القيم المفقودة، والتكرارات، ونطاقات الحد الأدنى والحد الأقصى، والقيم الفئوية الجديدة، والارتباطات، وما إلى ذلك. | أكثر من 20 اختبارًا إحصائيًا ومقاييس المسافة لمقارنة التحولات في توزيع البيانات. |
تصنيف | ؟ الانحدار |
الدقة، الدقة، الاستدعاء، ROC AUC، مصفوفة الارتباك، التحيز، إلخ. | MAE، ME، RMSE، توزيع الأخطاء، الحالة الطبيعية للخطأ، تحيز الخطأ، إلخ. |
؟ الترتيب (بما في ذلك RAG) | ؟ التوصيات |
NDCG، MAP، MRR، معدل الإصابة، إلخ. | الصدفة، والجدة، والتنوع، والتحيز الشعبي، وما إلى ذلك. |
نحن نرحب بالمساهمات! اقرأ الدليل لمعرفة المزيد.
لمزيد من المعلومات، راجع الوثائق الكاملة. يمكنك البدء بالدروس التعليمية:
شاهد المزيد من الأمثلة في المستندات.
استكشف الأدلة الإرشادية لفهم ميزات محددة في Evidently.
إذا كنت تريد الدردشة والتواصل، انضم إلى مجتمع Discord الخاص بنا!