qevals
1.0.0
Evals 是一个适用于法学硕士和 RAG 应用程序的综合数据生成和评估框架。
它有2个主要模块:
evals 的高级架构图如下:
架构图
要开始使用评估,请按照下列步骤操作:
pip install -r requirements.txt
安装必要的依赖项。config/config.toml.template
的副本并将其命名为config/config.toml
。config.toml
文件中的 2 个部分:MISC
DATAGEN
DATA_DIR
变量控制生成合成数据的数据语料库的位置,它相对于datagen/data/
目录。换句话说,在其中添加数据目录并在变量中指定它们的名称。GEN_PROVIDER
变量允许在azure
或vertex
之间进行选择。DATAEVAL
EVAL_TESTS
提供框架支持的评估测试列表。可能的选项有AnswerRelevancy
、 Hallucination
、 Faithfulness
、 Bias
、 Toxicity
、 Correctness
、 Coherence
、 PromptInjection
、 PromptBreaking
、 PromptLeakage
。EVAL_RPVODER
变量允许在azure
或vertex
之间进行选择。要运行合成数据生成模块:
修改/调整提供的示例客户端 ( datagen/client.py
)
运行python -m datagen.client
综合生成的数据将以 CSV 文件形式存储在datagen/qa_out/
目录中,格式如下:
```csv
question,context,ground_truth
```
运行 eval 模块:
eval/client.py
)question
、 context
、 ground_truth
)。use_answers_from_dataset
可能会或可能不会使用ground_truth
。当设置为False
时,它将忽略该数据列并使用配置的生成模型生成新的输出。mlflow ui --port 5000
python -m eval.client