Este repositorio contiene cuadernos de muestra para demostrar cómo evaluar un sistema mejorado con LLM. Proporciona herramientas y métodos para la evaluación local.
Estos portátiles se probaron con Python 3.12. Si está ejecutando localmente, asegúrese de utilizar 3.12. Asegúrese también de tener la configuración de AWS CLI con las credenciales que desea configurar en el perfil predeterminado. Estas credenciales necesitan acceso a Amazon Bedrock Models
LLM-System-Validation/
├── data/ # RAG context and validation datasets
├── example-notebooks/ # Notebooks for evaluating various components
|__ script/ # Various scripts for setting up environment.
|__ .github/ # Example github actions
data/
: Contiene los conjuntos de datos utilizados para el contexto y la validación de recuperación-generación aumentada (RAG).example-notebooks/
: cuadernos de Jupyter que demuestran la evaluación de:Clonar el repositorio:
git clone [email protected]:aws-samples/genai-system-evaluation.git
cd genai-system-evaluation
Configure un entorno virtual:
python -m venv venv
source venv/bin/activate # On Windows, use `venvScriptsactivate`
Instale las dependencias requeridas:
pip install -r requirements.txt
Descargue documentos de opensearch para el contexto RAG.
$ cd data && mkdir opensearch-docs && cd opensearch-docs
$ git clone https://github.com/opensearch-project/documentation-website.git
¡Vaya a ejemplos de cuadernos y comience con cuadernos jupyter!
$ cd ../../example-notebooks
$ jupyter notebook
¡Comience en el cuaderno 1 y avance a través de ellos!
example-notebooks/
para comprender las diferentes técnicas de evaluación. Consulte CONTRIBUCIÓN para obtener más información.
Esta biblioteca tiene la licencia MIT-0. Ver el archivo de LICENCIA.