Este projeto cria um aplicativo de resposta a perguntas de documento alimentado por grandes modelos de idiomas (LLMS) como Falcon-7b e Dolly-V2-3b usando Langchain, o banco de dados do Chromadb Vector. É implantado no streamlit.
Link para App: https://document-question-answering-kedarghule.streamlit.app/
Nota: Devido a problemas de memória com o Streamlit, o aplicativo pode não funcionar às vezes e dar um erro. Isso se deve ao limite de memória de 1 GB por Streamlit. Aqui está um vídeo que mostra como o aplicativo funciona: https://drive.google.com/file/d/1nkvdqdx1emwtzqhkyzu_2ijzgog-us8o/view?usp=Sharing
Na era atual da sobrecarga de informações, indivíduos e organizações enfrentam o desafio de extrair com eficiência informações relevantes de vastas quantidades de dados textuais. Os mecanismos de pesquisa tradicionais geralmente ficam aquém do fornecimento de respostas precisas e com consciência de contexto para perguntas específicas colocadas pelos usuários. Como resultado, há uma necessidade crescente de técnicas avançadas de processamento de linguagem natural (PNL) para permitir sistemas precisos de resposta a documentos (DQA).
O objetivo deste projeto é desenvolver um aplicativo de resposta a perguntas de documentos alimentado por grandes modelos de idiomas (LLMS), como Falcon-7b e Dolly-V2-3b, utilizando a plataforma Langchain e o banco de dados do ChromadB Vector. Ao alavancar os recursos do LLMS, este aplicativo visa fornecer aos usuários respostas precisas e abrangentes para suas perguntas em um determinado corpus de documento.
.txt
e arquivos .docx
. Uma vez enviado, o arquivo .docx
é convertido em um arquivo .txt
. Usando Langchain, o documento é carregado usando o TextLoader.