qevals
1.0.0
يعد Evals إطارًا لإنشاء البيانات الاصطناعية وتقييمها لتطبيقات LLMs وRAG.
لديها وحدتين رئيسيتين:
مخطط معماري عالي المستوى للتقييمات هو ما يلي:
مخطط الهندسة المعمارية
لبدء استخدام التقييمات، اتبع الخطوات التالية:
pip install -r requirements.txt
في دليل المشروع.config/config.toml.template
وقم بتسميتها config/config.toml
.config.toml
:MISC
DATAGEN
DATA_DIR
في موقع مجموعة البيانات لإنشاء بيانات تركيبية منها، وهي مرتبطة بدليل datagen/data/
. بمعنى آخر، أضف أدلة البيانات الخاصة بك هناك وحدد اسمها في المتغير.GEN_PROVIDER
الاختيار بين azure
أو vertex
.DATAEVAL
EVAL_TESTS
قائمة باختبارات التقييم التي يدعمها الإطار. الخيارات الممكنة هي AnswerRelevancy
، Hallucination
، Faithfulness
، Bias
، Toxicity
، Correctness
، Coherence
، PromptInjection
، PromptBreaking
، PromptLeakage
.EVAL_RPVODER
الاختيار بين azure
أو vertex
.لتشغيل وحدة توليد البيانات الاصطناعية:
تعديل/تكييف نموذج العميل المقدم ( datagen/client.py
)
قم بتشغيل python -m datagen.client
سيتم تخزين البيانات التي تم إنشاؤها صناعيًا في دليل datagen/qa_out/
كملف CSV بالتنسيق:
```csv
question,context,ground_truth
```
لتشغيل وحدة التقييم:
eval/client.py
)question
، context
، ground_truth
).ground_truth
اعتمادًا على الإعداد use_answers_from_dataset
. عند التعيين على False
، سيتم تجاهل عمود البيانات هذا وإنشاء مخرجات جديدة باستخدام النموذج التوليدي الذي تم تكوينه.mlflow ui --port 5000
python -m eval.client