فهرسة الملايين من مقالات ويكيبيديا باستخدام Upstash Vector
يحتوي هذا المستودع على التعليمات البرمجية والوثائق الخاصة بمشروعنا الخاص بفهرسة الملايين من مقالات ويكيبيديا باستخدام Upstash Vector، كما هو موضح في منشور مدونتنا.
نظرة عامة على المشروع
لقد أنشأنا محرك بحث دلالي وUpstash RAG Chat SDK باستخدام بيانات ويكيبيديا لإظهار قدرات Upstash Vector وRAG Chat SDK. يتضمن المشروع:
- إعداد وتضمين مقالات ويكيبيديا
- فهرسة المتجهات باستخدام Upstash Vector
- بناء محرك بحث دلالي ويكيبيديا
- تنفيذ روبوت الدردشة RAG
الميزات الرئيسية
- تمت فهرسة أكثر من 144 مليون ناقل من مقالات ويكيبيديا بـ 11 لغة
- نموذج التضمين BGE-M3 المستخدم لدعم متعدد اللغات
- تم تنفيذ البحث الدلالي مع إمكانيات متعددة اللغات
- تم إنشاء روبوت دردشة RAG باستخدام Upstash RAG Chat SDK
التقنيات المستخدمة
- Upstash Vector: لتخزين واستعلام عن التضمينات المتجهة
- Upstash Redis: لتخزين جلسات الدردشة
- Upstash RAG Chat SDK: لبناء تطبيق RAG Chat
- محولات الجملة: لتوليد التضمينات
- Meta-Llama-3-8B-Instruct: كموفر LLM من خلال QStash LLM APIs
تطوير
لتشغيل المشروع محلياً، اتبع الخطوات التالية:
- انتقل إلى Upstash Console لإدارة قواعد البيانات الخاصة بك:
- إنشاء قاعدة بيانات Vector جديدة مع دعم نموذج التضمين. يمكنك اختيار طراز BGE-M3 للحصول على دعم متعدد اللغات.
- قم بإنشاء قاعدة بيانات Redis جديدة لتخزين جلسات الدردشة.
- انسخ بيانات الاعتماد لكل من Redis وVector. قم أيضًا بنسخ بيانات اعتماد QStash لاستخدام نماذج LLM المستضافة من upstash.
ضع بيانات الاعتماد في ملف .env
في جذر المشروع. يجب أن يبدو ملف .env
الخاص بك كما يلي:
UPSTASH_VECTOR_REST_URL=
UPSTASH_VECTOR_REST_TOKEN=
UPSTASH_REDIS_REST_TOKEN=
UPSTASH_REDIS_REST_URL=
QSTASH_TOKEN=
- قم بملء فهرس المتجهات الخاص بك.
يستخدم هذا المشروع مساحات الأسماء لتخزين المقالات بلغات مختلفة. لذلك عليك رفع المتجهات في مساحة الاسم الصحيحة. بالنسبة للغة الإنجليزية، أدخل متجهاتك في مساحة الاسم en
.
- تثبيت التبعيات:
- تشغيل خادم التطوير:
المساهمة
نحن نرحب بالمساهمات لتحسين هذا المشروع. لا تتردد في تقديم القضايا أو سحب الطلبات.
شكر وتقدير
- ويكيبيديا لتوفير مجموعة البيانات
- Upstash لقاعدة بيانات المتجهات الخاصة بهم و RAG Chat SDK
- جميع المساهمين في المكتبات مفتوحة المصدر المستخدمة في هذا المشروع
اتصال
إذا كانت لديك أي أسئلة أو ملاحظات حول المشروع أو Upstash Vector، يرجى التواصل معنا على (إضافة معلومات الاتصال).
تحقق من العرض التجريبي المباشر لدينا لرؤية المشروع في العمل!