이 프로젝트는 Python을 사용하여 문서 검색을 위한 다양한 검색 기술을 보여줍니다. 구현된 기술에는 HyDe, Basic, RRF(Reciprocal Rank Fusion), Fusion Retrieval 및 SQD(Sub Query Decomposition)가 포함됩니다. 이 프로젝트는 사용자 인터페이스로 Streamlit을 사용하고 문서 처리 및 검색을 위해 다양한 라이브러리를 사용합니다.
저장소를 복제합니다.
git clone https://github.com/yourusername/yourrepository.git
cd yourrepository
필요한 종속성을 설치합니다.
pip install -r requirements.txt
Streamlit 애플리케이션을 실행합니다.
streamlit run app.py
사이드바를 사용하여 PDF 파일을 업로드하세요.
사이드바에서 검색 기술을 선택합니다.
텍스트 입력 상자에 쿼리를 입력하고 검색된 문서를 봅니다.
HyDe(Hypothetical Document) 검색은 쿼리를 기반으로 가상 문서를 생성하고 유사한 문서를 검색합니다.
기본 검색은 단순 유사성 검색을 사용하여 쿼리를 기반으로 문서를 검색합니다.
RRF(Reciprocal Rank Fusion)는 여러 검색 알고리즘의 결과를 결합하여 전체 검색 성능을 향상시킵니다.
Fusion 검색은 가장 관련성이 높은 문서를 검색하기 위해 가중치 합계를 사용하여 벡터 검색과 BM25 검색 결과를 결합합니다.
SQD(Sub Query Decomposition)는 쿼리를 하위 쿼리로 분해하고, 하위 쿼리를 기반으로 문서를 검색하는 기술입니다.
기여를 환영합니다! 개선 사항이나 버그 수정을 위해 문제를 열거나 풀 요청을 제출하세요.
이 프로젝트는 MIT 라이선스에 따라 라이선스가 부여됩니다. 자세한 내용은 LICENSE
파일을 참조하세요.