التوثيق
الغرض من هذه الحزمة هو تقديم نظام ملائم للإجابة على الأسئلة (RAG) مع تكوين بسيط قائم على YAML يتيح التفاعل مع مجموعات متعددة من المستندات المحلية. يتم إيلاء اهتمام خاص للتحسينات في مختلف مكونات النظام بالإضافة إلى RAGs الأساسية المستندة إلى LLM - تحليل أفضل للمستندات، والبحث المختلط، والبحث الممكّن HyDE، وسجل الدردشة، والربط العميق، وإعادة الترتيب، والقدرة على تخصيص التضمينات، والمزيد . تم تصميم الحزمة للعمل مع نماذج اللغات الكبيرة المخصصة (LLMs) - سواء من OpenAI أو المثبتة محليًا.
التنسيقات المدعومة
.md
- يقسم الملفات بناءً على المكونات المنطقية مثل العناوين والعناوين الفرعية وكتل التعليمات البرمجية. يدعم ميزات إضافية مثل تنظيف روابط الصور وإضافة بيانات التعريف المخصصة والمزيد..pdf
- محلل يستند إلى MuPDF..docx
- محلل مخصص، يدعم الجداول المتداخلة.Unstructured
:دعم تحليل الجدول عبر gmft مفتوح المصدر (https://github.com/conjuncts/gmft) أو Azure Document Intelligence.
دعم اختياري لتحليل الصور باستخدام Gemini API.
يدعم مجموعة متعددة من المستندات، وتصفية النتائج حسب المجموعة.
القدرة على تحديث التضمينات بشكل تدريجي، دون الحاجة إلى إعادة فهرسة قاعدة المستند بأكملها.
يُنشئ عمليات تضمين كثيفة من مجلد المستندات ويخزنها في قاعدة بيانات متجهة (ChromaDB).
multilingual-e5-base
.instructor-large
.يُنشئ تضمينات متفرقة باستخدام SPLADE (https://github.com/naver/splade) لتمكين البحث المختلط (متناثر + كثيف).
يدعم استراتيجية "الاسترجاع وإعادة الترتيب" للبحث الدلالي، انظر هنا.
ms-marco-MiniLM
الأصلي، يتم دعم bge-reranker
الأكثر حداثة.يدعم HyDE (تضمين المستندات الافتراضية) - انظر هنا.
دعم الاستعلامات المتعددة، المستوحى من RAG Fusion
- https://towardsdatascience.com/forget-rag-the-future-is-rag-fusion-1147298d8ad1
يدعم سجل الدردشة الاختياري مع سياق السؤال
يسمح بالتفاعل مع المستندات المضمنة، ويدعم داخليًا النماذج والأساليب التالية (بما في ذلك المستضافة محليًا):
إمكانية التشغيل التفاعلي مع LiteLLM + Ollama عبر OpenAI API، ودعم مئات النماذج المختلفة (راجع تكوين النموذج لـ LiteLLM)
ميزات أخرى
تصفح التوثيق