Este repositório contém cadernos de amostra para demonstrar como avaliar um sistema aumentado por LLM. Fornece ferramentas e métodos para avaliação local.
Esses notebooks foram testados com Python 3.12. Se você estiver executando localmente, verifique se está usando o 3.12. Certifique-se também de ter a AWS CLI configurada com as credenciais que deseja definir para o perfil padrão. Essas credenciais precisam de acesso aos modelos Amazon Bedrock
LLM-System-Validation/
├── data/ # RAG context and validation datasets
├── example-notebooks/ # Notebooks for evaluating various components
|__ script/ # Various scripts for setting up environment.
|__ .github/ # Example github actions
data/
: Contém os conjuntos de dados usados para contexto e validação de Retrieval-Augmented Generation (RAG).example-notebooks/
: Notebooks Jupyter demonstrando a avaliação de:Clone o repositório:
git clone [email protected]:aws-samples/genai-system-evaluation.git
cd genai-system-evaluation
Configure um ambiente virtual:
python -m venv venv
source venv/bin/activate # On Windows, use `venvScriptsactivate`
Instale as dependências necessárias:
pip install -r requirements.txt
Baixe os documentos do opensearch para o contexto RAG.
$ cd data && mkdir opensearch-docs && cd opensearch-docs
$ git clone https://github.com/opensearch-project/documentation-website.git
Vá para exemplos de notebooks e inicie notebooks jupyter!
$ cd ../../example-notebooks
$ jupyter notebook
Comece no caderno 1 e vá avançando neles!
example-notebooks/
para entender diferentes técnicas de avaliação. Consulte CONTRIBUINDO para obter mais informações.
Esta biblioteca está licenciada sob a licença MIT-0. Veja o arquivo LICENÇA.