이 프로젝트는 ChromADB 벡터 데이터베이스 인 Langchain을 사용하여 FALCON-7B 및 DOLLY-V2-3B와 같은 대규모 언어 모델 (LLM)으로 구동되는 앱에 대한 문서 질문 답변 앱을 구축합니다. Streamlit에 배치됩니다.
앱에 대한 링크 : https://document-question-answering-kedarghule.streamlit.app/
참고 : Streamlit의 메모리 문제로 인해 앱이 때로는 작동하지 않아 오류가 발생할 수 있습니다. 이는 Streamlit의 1GB 메모리 제한 때문입니다. 다음은 앱의 작동 방식을 보여주는 비디오입니다 : https://drive.google.com/file/d/1nkvdqdx1emwtzqhkyzu_2ijzgog-us8o/view?usp=sharing
오늘날의 정보 과부하 시대에 개인과 조직은 방대한 양의 텍스트 데이터에서 관련 정보를 효율적으로 추출 해야하는 과제에 직면 해 있습니다. 전통적인 검색 엔진은 종종 사용자가 제기 한 특정 질문에 대한 정확하고 맥락 인식 답변을 제공하는 데 부족합니다. 결과적으로, 정확한 문서 질문 답변 (DQA) 시스템을 가능하게하기 위해 고급 자연 언어 처리 (NLP) 기술이 증가하고 있습니다.
이 프로젝트의 목표는 Langchain 플랫폼 및 ChromADB 벡터 데이터베이스를 사용하여 Falcon-7B 및 Dolly-V2-3B와 같은 LLMS (Langer Language Models)로 구동되는 문서 질문 응답 앱을 개발하는 것입니다. 이 앱은 LLM의 기능을 활용하여 사용자에게 주어진 문서 코퍼스 내에서 질문에 대한 정확하고 포괄적 인 답변을 제공하는 것을 목표로합니다.
.txt
파일 및 .docx
파일 업로드를 지원합니다. 업로드되면 .docx
파일이 .txt
파일로 변환됩니다. Langchain을 사용하여 문서는 텍스트 로더를 사용하여로드됩니다.