Mengindeks Jutaan Artikel Wikipedia Dengan Upstash Vector
Repositori ini berisi kode dan dokumentasi untuk proyek kami dalam mengindeks jutaan artikel Wikipedia menggunakan Upstash Vector, seperti yang dijelaskan dalam postingan blog kami.
Ikhtisar Proyek
Kami telah membuat mesin pencari semantik dan Upstash RAG Chat SDK menggunakan data Wikipedia untuk mendemonstrasikan kemampuan Upstash Vector dan RAG Chat SDK. Proyek ini melibatkan:
- Mempersiapkan dan menyematkan artikel Wikipedia
- Mengindeks vektor menggunakan Upstash Vector
- Membangun mesin pencari semantik Wikipedia
- Menerapkan chatbot RAG
Fitur Utama
- Mengindeks lebih dari 144 juta vektor dari artikel Wikipedia dalam 11 bahasa
- Model penyematan BGE-M3 digunakan untuk dukungan multibahasa
- Pencarian semantik yang diterapkan dengan kemampuan lintas bahasa
- Membuat chatbot RAG menggunakan Upstash RAG Chat SDK
Teknologi yang Digunakan
- Upstash Vector: Untuk menyimpan dan menanyakan penyematan vektor
- Upstash Redis: Untuk menyimpan sesi obrolan
- Upstash RAG Chat SDK: Untuk membangun aplikasi RAG Chat
- SentenceTransformers: Untuk menghasilkan embeddings
- Meta-Llama-3-8B-Instruct: Sebagai penyedia LLM melalui API QStash LLM
Perkembangan
Untuk menjalankan proyek secara lokal, ikuti langkah-langkah berikut:
- Buka Konsol Upstash untuk mengelola database Anda:
- Buat database Vektor baru dengan dukungan model penyematan. Anda dapat memilih model BGE-M3 untuk dukungan multibahasa.
- Buat database Redis baru untuk menyimpan sesi obrolan.
- Salin kredensial untuk Redis dan Vector. Salin juga kredensial QStash untuk menggunakan model LLM yang dihosting upstash.
Masukkan kredensial dalam file .env
di root proyek. File .env
Anda akan terlihat seperti ini:
UPSTASH_VECTOR_REST_URL=
UPSTASH_VECTOR_REST_TOKEN=
UPSTASH_REDIS_REST_TOKEN=
UPSTASH_REDIS_REST_URL=
QSTASH_TOKEN=
- Isi indeks Vektor Anda.
Proyek ini menggunakan namespace untuk menyimpan artikel dalam berbagai bahasa. Jadi, Anda harus memasukkan vektor ke dalam namespace yang benar. Untuk bahasa Inggris, masukkan vektor Anda ke dalam namespace en
.
- Instal dependensi:
- Jalankan server pengembangan:
Berkontribusi
Kami menyambut kontribusi untuk meningkatkan proyek ini. Silakan mengirimkan masalah atau menarik permintaan.
Ucapan Terima Kasih
- Wikipedia untuk menyediakan kumpulan data
- Upstash untuk database vektor dan RAG Chat SDK mereka
- Semua kontributor perpustakaan sumber terbuka yang digunakan dalam proyek ini
Kontak
Untuk pertanyaan atau masukan apa pun tentang proyek atau Upstash Vector, silakan hubungi kami di (tambahkan informasi kontak).
Lihat demo langsung kami untuk melihat proyek ini beraksi!