Este proyecto demuestra varias técnicas de recuperación de documentos utilizando Python. Las técnicas implementadas incluyen HyDe, Basic, Fusion de rango recíproco (RRF), Recuperación de fusión y Descomposición de subconsultas (SQD). El proyecto utiliza Streamlit para la interfaz de usuario y varias bibliotecas para el procesamiento y recuperación de documentos.
Clonar el repositorio:
git clone https://github.com/yourusername/yourrepository.git
cd yourrepository
Instale las dependencias requeridas:
pip install -r requirements.txt
Ejecute la aplicación Streamlit:
streamlit run app.py
Sube un archivo PDF usando la barra lateral.
Seleccione una técnica de recuperación de la barra lateral.
Ingrese una consulta en el cuadro de entrada de texto y vea los documentos recuperados.
La recuperación HyDe (documento hipotético) genera un documento hipotético basado en la consulta y recupera documentos similares.
La recuperación básica utiliza una búsqueda de similitud simple para recuperar documentos según la consulta.
Reciprocal Rank Fusion (RRF) combina los resultados de múltiples algoritmos de recuperación para mejorar el rendimiento general de la recuperación.
La recuperación de Fusion combina la búsqueda vectorial y los resultados de la búsqueda BM25 utilizando una suma ponderada para recuperar los documentos más relevantes.
La descomposición de subconsultas (SQD) es una técnica que descompone la consulta en subconsultas y recupera documentos basados en las subconsultas.
¡Las contribuciones son bienvenidas! Abra un problema o envíe una solicitud de extracción para obtener mejoras o correcciones de errores.
Este proyecto está bajo la licencia MIT. Consulte el archivo LICENSE
para obtener más detalles.