qevals
1.0.0
Evals ist ein synthetisches Datengenerierungs- und Bewertungsframework für LLMs und RAG-Anwendungen.
Es besteht aus 2 Hauptmodulen:
Ein High-Level-Architekturdiagramm von Evals sieht wie folgt aus:
Architekturdiagramm
Um mit Auswertungen zu beginnen, führen Sie die folgenden Schritte aus:
pip install -r requirements.txt
im Projektverzeichnis ausführen.config/config.toml.template
und nennen Sie sie config/config.toml
.config.toml
:MISC
DATAGEN
DATA_DIR
steuert den Speicherort des Datenkorpus, aus dem synthetische Daten generiert werden sollen. Sie ist relativ zum Verzeichnis datagen/data/
. Mit anderen Worten: Fügen Sie dort Ihre Datenverzeichnisse hinzu und geben Sie deren Namen in der Variablen an.GEN_PROVIDER
ermöglicht die Wahl zwischen azure
oder vertex
.DATAEVAL
EVAL_TESTS
bietet eine Liste der vom Framework unterstützten Evaluierungstests. Die möglichen Optionen sind AnswerRelevancy
, Hallucination
, Faithfulness
, Bias
, Toxicity
, Correctness
, Coherence
, PromptInjection
, PromptBreaking
, PromptLeakage
.EVAL_RPVODER
ermöglicht die Wahl zwischen azure
oder vertex
.So führen Sie das Modul zur Generierung synthetischer Daten aus:
Den bereitgestellten Beispielclient ( datagen/client.py
) ändern/anpassen.
Führen Sie python -m datagen.client
aus
Die synthetisch generierten Daten werden im Verzeichnis datagen/qa_out/
als CSV-Datei im Format gespeichert:
```csv
question,context,ground_truth
```
So führen Sie das Evaluierungsmodul aus:
eval/client.py
) ändern/anpassen.question
, context
, ground_truth
) übereinstimmen.use_answers_from_dataset
kann die ground_truth
verwendet werden oder nicht. Bei der Einstellung False
wird diese Datenspalte ignoriert und mithilfe des konfigurierten generativen Modells neue Ausgaben generiert.mlflow ui --port 5000
python -m eval.client
aus