โครงการนี้สร้างแอพตอบคำถามที่ใช้งานโดยโมเดลภาษาขนาดใหญ่ (LLMS) เช่น Falcon-7b และ Dolly-V2-3B โดยใช้ Langchain ฐานข้อมูลเวกเตอร์ Chromadb มันถูกปรับใช้กับ Streamlit
ลิงก์ไปยังแอพ: https://document-question-answering-kedarghule.streamlit.app/
หมายเหตุ: เนื่องจากปัญหาหน่วยความจำกับ Streamlit แอปอาจไม่ทำงานในบางครั้งและให้ข้อผิดพลาด นี่เป็นเพราะขีด จำกัด หน่วยความจำ 1GB โดย Streamlit นี่คือวิดีโอที่แสดงวิธีการทำงานของแอพ: https://drive.google.com/file/d/1nkvdqdx1emwtzqhkyzu_2ijzgog-us8o/view?usp=sharing
ในยุคของข้อมูลมากเกินไปบุคคลและองค์กรต้องเผชิญกับความท้าทายในการดึงข้อมูลที่เกี่ยวข้องอย่างมีประสิทธิภาพจากข้อมูลข้อความจำนวนมาก เครื่องมือค้นหาแบบดั้งเดิมมักจะสั้นในการให้คำตอบที่แม่นยำและตระหนักถึงบริบทสำหรับคำถามเฉพาะที่ผู้ใช้โพสต์ เป็นผลให้มีความต้องการที่เพิ่มขึ้นสำหรับเทคนิคการประมวลผลภาษาธรรมชาติขั้นสูง (NLP) เพื่อเปิดใช้งานระบบคำถามการตอบคำถามเอกสารที่ถูกต้อง (DQA)
เป้าหมายของโครงการนี้คือการพัฒนาแอพตอบคำถามที่ขับเคลื่อนด้วยโมเดลภาษาขนาดใหญ่ (LLMS) เช่น Falcon-7b และ Dolly-V2-3B โดยใช้แพลตฟอร์ม Langchain และฐานข้อมูลเวกเตอร์ Chromadb ด้วยการใช้ประโยชน์จากความสามารถของ LLMS แอพนี้มีจุดมุ่งหมายเพื่อให้ผู้ใช้ได้รับคำตอบที่ถูกต้องและครอบคลุมสำหรับคำถามของพวกเขาภายในคลังเอกสารที่กำหนด
.txt
และไฟล์ .docx
เมื่ออัปโหลดไฟล์ .docx
จะถูกแปลงเป็นไฟล์. .txt
เมื่อใช้ Langchain เอกสารจะถูกโหลดโดยใช้ textloader