사용된 모델은 포옹 얼굴의 "BAAI/bge-base-en-v1.5"입니다.
Docker 컨테이너에서 Qdrant를 실행하려면 다음 단계를 따르세요.
Qdrant Docker 이미지를 가져옵니다.
docker pull qdrant/qdrant
Qdrant 컨테이너 실행:
docker run -p 6333:6333 qdrant/qdrant
스크립트를 실행하기 전에 필요한 Python 라이브러리가 모두 설치되어 있는지 확인하세요.
pip install -r requirements.txt
ingest.py 스크립트는 Insurance_Handbook.pdf PDF 문서를 처리하고, 텍스트에서 벡터 임베딩을 생성하고, 이러한 임베딩을 Qdrant 벡터 데이터베이스에 저장합니다.
작동 방식: PDF 로드: 지정된 PDF 파일의 내용을 읽습니다. 텍스트 분할: 임베딩 생성을 위해 텍스트를 관리 가능한 덩어리로 나눕니다. 각 청크는 컨텍스트를 유지하기 위해 약간 겹칠 수 있습니다. 임베딩 생성: 사전 훈련된 모델을 사용하여 각 텍스트 청크를 벡터 임베딩으로 변환합니다. Qdrant에 저장: 생성된 임베딩과 해당 텍스트를 Qdrant 벡터 데이터베이스에 저장합니다. 사용법: 다음 명령을 실행하여 Qdrant에 데이터를 처리하고 수집합니다.
python ingest.py
app.py 스크립트는 사용자가 제공한 쿼리를 기반으로 문서를 검색하기 위해 Qdrant 벡터 데이터베이스를 쿼리하는 데 사용됩니다.
작동 방식: 쿼리 포함: 문서 포함에 사용된 것과 동일한 모델을 사용하여 입력 쿼리를 벡터 포함으로 변환합니다. 유사성 검색: 쿼리 임베딩과 Qdrant에 저장된 임베딩을 비교하여 가장 유사한 문서를 찾습니다. 결과 반환: 유사성 점수를 기준으로 가장 일치하는 문서를 검색하고 표시합니다. 사용법: 다음 명령을 실행하여 쿼리를 시작합니다.
python app.py
Qdrant 컨테이너가 실행 중이고 ingest.py 스크립트를 사용하여 데이터가 수집되었는지 확인하세요.