Proyek ini mendemonstrasikan berbagai teknik pengambilan dokumen menggunakan Python. Teknik yang diterapkan antara lain HyDe, Basic, Reciprocal Rank Fusion (RRF), Fusion Retrieval dan Sub Query Decomposition (SQD). Proyek ini menggunakan Streamlit untuk antarmuka pengguna dan berbagai perpustakaan untuk pemrosesan dan pengambilan dokumen.
Kloning repositori:
git clone https://github.com/yourusername/yourrepository.git
cd yourrepository
Instal dependensi yang diperlukan:
pip install -r requirements.txt
Jalankan aplikasi Streamlit:
streamlit run app.py
Unggah file PDF menggunakan sidebar.
Pilih teknik pengambilan dari sidebar.
Masukkan kueri di kotak input teks dan lihat dokumen yang diambil.
Pengambilan HyDe (Dokumen Hipotetis) menghasilkan dokumen hipotetis berdasarkan kueri dan mengambil dokumen serupa.
Pengambilan dasar menggunakan pencarian kesamaan sederhana untuk mengambil dokumen berdasarkan kueri.
Reciprocal Rank Fusion (RRF) menggabungkan hasil beberapa algoritma pengambilan untuk meningkatkan kinerja pengambilan secara keseluruhan.
Pengambilan fusi menggabungkan pencarian vektor dan hasil pencarian BM25 menggunakan jumlah tertimbang untuk mengambil dokumen yang paling relevan.
Dekomposisi Sub Kueri (SQD) adalah teknik yang menguraikan kueri menjadi sub-kueri dan mengambil dokumen berdasarkan sub-kueri tersebut.
Kontribusi dipersilakan! Silakan buka masalah atau kirimkan permintaan penarikan untuk perbaikan atau perbaikan bug apa pun.
Proyek ini dilisensikan di bawah Lisensi MIT. Lihat file LICENSE
untuk lebih jelasnya.