선적 서류 비치
이 패키지의 목적은 여러 로컬 문서 컬렉션과 상호 작용할 수 있는 간단한 YAML 기반 구성을 갖춘 편리한 RAG(질문 응답) 시스템을 제공하는 것입니다. 기본 LLM 기반 RAG 외에도 시스템의 다양한 구성 요소 개선에 특별한 주의를 기울였습니다. 더 나은 문서 구문 분석, 하이브리드 검색, HyDE 지원 검색, 채팅 기록, 딥 링크, 순위 재지정, 임베딩 사용자 정의 기능 등 . 이 패키지는 OpenAI에서든 로컬로 설치하든 상관없이 맞춤형 LLM(대형 언어 모델)과 함께 작동하도록 설계되었습니다.
지원되는 형식
.md
- 제목, 하위 제목 및 코드 블록과 같은 논리적 구성 요소를 기반으로 파일을 나눕니다. 이미지 링크 정리, 사용자 정의 메타데이터 추가 등과 같은 추가 기능을 지원합니다..pdf
- MuPDF 기반 파서..docx
- 사용자 정의 파서, 중첩 테이블을 지원합니다.Unstructured
전처리기에서 지원됩니다.오픈 소스 gmft(https://github.com/conjuncts/gmft) 또는 Azure Document Intelligence를 통한 테이블 구문 분석을 지원합니다.
Gemini API를 사용한 이미지 구문 분석에 대한 선택적 지원.
여러 문서 컬렉션을 지원하고 컬렉션별로 결과를 필터링합니다.
전체 문서 기반을 다시 색인화할 필요 없이 포함을 점진적으로 업데이트하는 기능입니다.
문서 폴더에서 조밀한 임베딩을 생성하고 이를 벡터 데이터베이스(ChromaDB)에 저장합니다.
multilingual-e5-base
)instructor-large
)SPLADE(https://github.com/naver/splad)를 사용하여 희소 임베딩을 생성하여 하이브리드 검색(희소 + 조밀)을 활성화합니다.
의미론적 검색을 위한 "검색 및 순위 재지정" 전략을 지원합니다. 여기를 참조하세요.
ms-marco-MiniLM
크로스 인코더 외에도 보다 현대적인 bge-reranker
지원됩니다.HyDE(가설 문서 삽입) 지원 - 여기를 참조하세요.
RAG Fusion
에서 영감을 받은 다중 쿼리 지원 - https://towardsdatascience.com/forget-rag-the-future-is-rag-fusion-1147298d8ad1
질문 상황화를 통해 선택적 채팅 기록을 지원합니다.
내장된 문서와의 상호 작용을 허용하며 내부적으로 다음 모델 및 방법(로컬 호스팅 포함)을 지원합니다.
수백 가지의 다양한 모델을 지원하는 OpenAI API를 통한 LiteLLM + Ollama와의 상호 운용성(LiteLLM의 모델 구성 참조)
기타 기능
문서 찾아보기