llm chatbot rag
1.0.0
Para usar certos modelos LLM (como Gemma), você precisa criar um arquivo .env contendo a linha ACCESS_TOKEN=<your hugging face token>
Instale dependências com pip install -r requirements.txt
Execute com streamlit run src/app.py
Para usar a quantização de bits e bytes, é necessária uma GPU Nvidia. Certifique-se de instalar primeiro o NVIDIA Toolkit e depois o PyTorch.
Você pode verificar se sua GPU está disponível em Python com
import torch
print(torch.cuda.is_available())
Se você não tiver uma GPU compatível, tente definir device="cpu"
para o modelo e remova a configuração de quantização.