scratch pdf bot
1.0.0
PDF에 대한 질문에 답변할 수 있는 챗봇의 프로토타입입니다. 언어 모델링에는 OpenAI의 API를 사용하고 벡터 저장 및 검색에는 LanceDB를 사용합니다.
이는 종속성 관리를 위해 Poetry를 사용합니다. 종속성을 설치하려면 다음을 수행하십시오.
$ poetry install
또한 .env
파일을 생성하고 여기에 OPENAI_API_KEY
추가해야 합니다( .env.example
참조).
아래 명령은 몇 개의 PDF가 포함된 papers
디렉터리에서 파이프라인을 실행합니다. 그런 다음 PDF에 대해 질문할 수 있는 REPL이 시작됩니다. "exit" 또는 cmd/ctrl + c를 입력하여 Q&A 루프를 종료할 수 있습니다.
$ poetry run python main.py --pdf_directory=papers
LanceDB 데이터베이스가 이 리포지토리에 포함되어 있으므로 .lancedb
디렉터리를 삭제하지 않는 한 수집 코드 내의 임베딩 생성 및 저장을 건너뜁니다. 이는 임베딩이 생성될 때까지 기다리지 않고도 코드를 더 쉽게 실행할 수 있도록 하기 위해 포함되었습니다.
나는 여기에 간단한 블로그 게시물을 작성하고 이 프로젝트의 데모 비디오를 녹화했습니다.