โปรเจ็กต์นี้สาธิตเทคนิคการดึงข้อมูลต่างๆ สำหรับการดึงเอกสารโดยใช้ Python เทคนิคที่นำมาใช้ ได้แก่ HyDe, Basic, Reciprocal Rank Fusion (RRF), Fusion Returnal และ Sub Query Decomposition (SQD) โปรเจ็กต์นี้ใช้ Streamlit สำหรับอินเทอร์เฟซผู้ใช้และไลบรารีต่างๆ สำหรับการประมวลผลและการเรียกค้นเอกสาร
โคลนที่เก็บ:
git clone https://github.com/yourusername/yourrepository.git
cd yourrepository
ติดตั้งการพึ่งพาที่จำเป็น:
pip install -r requirements.txt
เรียกใช้แอปพลิเคชัน Streamlit:
streamlit run app.py
อัปโหลดไฟล์ PDF โดยใช้แถบด้านข้าง
เลือกเทคนิคการดึงข้อมูลจากแถบด้านข้าง
ป้อนแบบสอบถามในกล่องป้อนข้อความและดูเอกสารที่ดึงมา
การดึงข้อมูล HyDe (Hypothetical Document) จะสร้างเอกสารสมมุติตามแบบสอบถามและดึงเอกสารที่คล้ายกัน
การเรียกค้นขั้นพื้นฐานใช้การค้นหาความคล้ายคลึงกันอย่างง่ายเพื่อดึงเอกสารตามแบบสอบถาม
Reciprocal Rank Fusion (RRF) รวมผลลัพธ์ของอัลกอริธึมการดึงข้อมูลหลายรายการเพื่อปรับปรุงประสิทธิภาพการดึงข้อมูลโดยรวม
การดึงข้อมูลแบบฟิวชั่นจะรวมการค้นหาเวกเตอร์และผลการค้นหา BM25 โดยใช้ผลรวมถ่วงน้ำหนักเพื่อดึงเอกสารที่เกี่ยวข้องมากที่สุด
Sub Query Decomposition (SQD) เป็นเทคนิคที่แยกย่อยแบบสอบถามออกเป็นแบบสอบถามย่อยและดึงเอกสารตามแบบสอบถามย่อย
ยินดีบริจาค! โปรดเปิดปัญหาหรือส่งคำขอดึงเพื่อปรับปรุงหรือแก้ไขข้อบกพร่อง
โครงการนี้ได้รับอนุญาตภายใต้ใบอนุญาต MIT ดูไฟล์ LICENSE
สำหรับรายละเอียดเพิ่มเติม