Este projeto demonstra várias técnicas de recuperação para recuperação de documentos usando Python. As técnicas implementadas incluem HyDe, Basic, Reciprocal Rank Fusion (RRF), Fusion Retrieval e Sub Query Decomposition (SQD). O projeto usa Streamlit para a interface do usuário e várias bibliotecas para processamento e recuperação de documentos.
Clone o repositório:
git clone https://github.com/yourusername/yourrepository.git
cd yourrepository
Instale as dependências necessárias:
pip install -r requirements.txt
Execute o aplicativo Streamlit:
streamlit run app.py
Carregue um arquivo PDF usando a barra lateral.
Selecione uma técnica de recuperação na barra lateral.
Insira uma consulta na caixa de entrada de texto e visualize os documentos recuperados.
A recuperação HyDe (documento hipotético) gera um documento hipotético com base na consulta e recupera documentos semelhantes.
A recuperação básica usa uma pesquisa de similaridade simples para recuperar documentos com base na consulta.
Reciprocal Rank Fusion (RRF) combina os resultados de vários algoritmos de recuperação para melhorar o desempenho geral de recuperação.
A recuperação de fusão combina a pesquisa vetorial e os resultados da pesquisa BM25 usando uma soma ponderada para recuperar os documentos mais relevantes.
Subconsulta Decomposição (SQD) é uma técnica que decompõe a consulta em subconsultas e recupera documentos com base nas subconsultas.
Contribuições são bem-vindas! Abra um problema ou envie uma solicitação pull para quaisquer melhorias ou correções de bugs.
Este projeto está licenciado sob a licença MIT. Consulte o arquivo LICENSE
para obter mais detalhes.