Ce référentiel contient des exemples de cahiers pour montrer comment évaluer un système augmenté par LLM. Il fournit des outils et des méthodes pour l’évaluation locale.
Ces notebooks ont été testés avec Python 3.12. Si vous exécutez localement, assurez-vous que vous utilisez la version 3.12. Assurez-vous également que vous disposez de la configuration AWS CLI avec les informations d'identification que vous souhaitez définir sur le profil par défaut. Ces informations d'identification doivent accéder aux modèles Amazon Bedrock
LLM-System-Validation/
├── data/ # RAG context and validation datasets
├── example-notebooks/ # Notebooks for evaluating various components
|__ script/ # Various scripts for setting up environment.
|__ .github/ # Example github actions
data/
: contient les ensembles de données utilisés pour le contexte et la validation de la génération de récupération augmentée (RAG).example-notebooks/
: carnets Jupyter démontrant l'évaluation de :Clonez le dépôt :
git clone [email protected]:aws-samples/genai-system-evaluation.git
cd genai-system-evaluation
Configurez un environnement virtuel :
python -m venv venv
source venv/bin/activate # On Windows, use `venvScriptsactivate`
Installez les dépendances requises :
pip install -r requirements.txt
Téléchargez les documents opensearch pour le contexte RAG.
$ cd data && mkdir opensearch-docs && cd opensearch-docs
$ git clone https://github.com/opensearch-project/documentation-website.git
Accédez aux exemples de notebooks et démarrez les notebooks Jupyter !
$ cd ../../example-notebooks
$ jupyter notebook
Commencez par le cahier 1 et parcourez-le !
example-notebooks/
pour comprendre les différentes techniques d'évaluation. Voir CONTRIBUTION pour plus d'informations.
Cette bibliothèque est sous licence MIT-0. Voir le fichier LICENCE.