O modelo usado é "BAAI/bge-base-en-v1.5" do abraço facial
Para executar o Qdrant em um contêiner Docker, siga estas etapas:
Extraia a imagem do Qdrant Docker:
docker pull qdrant/qdrant
Execute o contêiner Qdrant:
docker run -p 6333:6333 qdrant/qdrant
Antes de executar qualquer script, certifique-se de que todas as bibliotecas Python necessárias estejam instaladas:
pip install -r requirements.txt
O script ingest.py processa o documento PDF insurance_Handbook.pdf, gera embeddings vetoriais a partir do texto e armazena esses embeddings no banco de dados vetorial Qdrant.
Como funciona: Carregar o PDF: Lê o conteúdo do arquivo PDF especificado. Dividir o texto: divide o texto em partes gerenciáveis para gerar embeddings. Cada pedaço pode se sobrepor ligeiramente para preservar o contexto. Gerar incorporações: transforma cada pedaço de texto em uma incorporação vetorial usando um modelo pré-treinado. Armazenar no Qdrant: Armazena os embeddings gerados e seu texto correspondente no banco de dados vetorial Qdrant. Uso: execute o seguinte comando para processar e ingerir dados no Qdrant:
python ingest.py
O script app.py é usado para consultar o banco de dados vetorial Qdrant para recuperar documentos com base em uma consulta fornecida pelo usuário.
Como funciona: Incorporando a consulta: Converte a consulta de entrada em uma incorporação vetorial usando o mesmo modelo usado para incorporações de documentos. Pesquisa de similaridade: compara a incorporação da consulta com as incorporações armazenadas no Qdrant para encontrar os documentos mais semelhantes. Retornando resultados: recupera e exibe os principais documentos correspondentes com base nas pontuações de similaridade. Uso: execute o seguinte comando para iniciar a consulta:
python app.py
Certifique-se de que o contêiner Qdrant esteja em execução e que os dados tenham sido ingeridos usando o script ingest.py.