Proyek ini membangun aplikasi yang menjawab pertanyaan dokumen yang ditenagai oleh model bahasa besar (LLM) seperti FALCON-7B dan Dolly-V2-3B menggunakan Langchain, database Vektor Chromadb. Itu digunakan pada streamlit.
Tautan ke Aplikasi: https://document-question-answering-kedarghule.streamlit.app/
Catatan: Karena masalah memori dengan streamlit, aplikasi tersebut kadang -kadang tidak berfungsi dan memberikan kesalahan. Ini karena batas memori 1GB oleh StreamLit. Berikut adalah video yang menunjukkan cara kerja aplikasi: https://drive.google.com/file/d/1nkvdqdx1emwtzqhkyzu_2ijzgog-us8o/view?usp=sharing
Di era informasi yang berlebihan saat ini, individu dan organisasi dihadapkan dengan tantangan untuk mengekstraksi informasi yang relevan secara efisien dari sejumlah besar data tekstual. Mesin pencari tradisional sering gagal dalam memberikan jawaban yang tepat dan sadar konteks untuk pertanyaan spesifik yang diajukan oleh pengguna. Akibatnya, ada kebutuhan yang berkembang untuk teknik pemrosesan bahasa alami canggih (NLP) untuk memungkinkan sistem penjawab pertanyaan dokumen yang akurat (DQA).
Tujuan dari proyek ini adalah untuk mengembangkan aplikasi yang menjawab pertanyaan dokumen yang ditenagai oleh model bahasa besar (LLM), seperti Falcon-7b dan Dolly-V2-3B, menggunakan platform Langchain dan database vektor Chromadb. Dengan memanfaatkan kemampuan LLMS, aplikasi ini bertujuan untuk memberikan pengguna jawaban yang akurat dan komprehensif untuk pertanyaan mereka dalam corpus dokumen yang diberikan.
.txt
dan file .docx
. Setelah diunggah, file .docx
dikonversi ke file .txt
. Menggunakan Langchain, dokumen dimuat menggunakan TextLoader.