qevals
1.0.0
Evals — это система генерации и оценки синтетических данных для приложений LLM и RAG.
Имеет 2 основных модуля:
Схема высокоуровневой архитектуры evals выглядит следующим образом:
Схема архитектуры
Чтобы начать работу с оценками, выполните следующие действия:
pip install -r requirements.txt
в каталоге проекта.config/config.toml.template
и назовите ее config/config.toml
.config.toml
:MISC
DATAGEN
DATA_DIR
управляет расположением корпуса данных, из которого будут генерироваться синтетические данные, относительно каталога datagen/data/
. Другими словами, добавьте туда свои каталоги данных и укажите их имя в переменной.GEN_PROVIDER
позволяет выбирать между azure
или vertex
.DATAEVAL
EVAL_TESTS
предлагает список оценочных тестов, поддерживаемых платформой. Возможные варианты: AnswerRelevancy
, Hallucination
, Faithfulness
, Bias
, Toxicity
, Correctness
, Coherence
, PromptInjection
, PromptBreaking
, PromptLeakage
.EVAL_RPVODER
позволяет выбирать между azure
или vertex
.Чтобы запустить модуль генерации синтетических данных:
Измените/адаптируйте предоставленный образец клиента ( datagen/client.py
).
Запустите python -m datagen.client
Синтетически сгенерированные данные будут храниться в каталоге datagen/qa_out/
в виде файла CSV в формате:
```csv
question,context,ground_truth
```
Чтобы запустить модуль eval:
eval/client.py
)question
, context
, ground_truth
).ground_truth
может использоваться или не использоваться в зависимости от настройки use_answers_from_dataset
. Если установлено значение False
этот столбец данных будет игнорироваться и генерироваться новые выходные данные, используя настроенную генеративную модель.mlflow ui --port 5000
python -m eval.client