تسمح لك خطوط أنابيب الذكاء الاصطناعي الخاصة بـ Pathway بوضع تطبيقات الذكاء الاصطناعي الإنتاجية بسرعة والتي توفر بحث RAG وAI عالي الدقة للمؤسسات على نطاق واسع باستخدام أحدث المعرفة المتوفرة في مصادر البيانات الخاصة بك. فهو يوفر لك قوالب تطبيقات LLM (نموذج اللغة الكبيرة) جاهزة للنشر. يمكنك اختبارها على جهازك الخاص ونشرها على السحابة (GCP، AWS، Azure، Render،...) أو محليًا.
تتصل التطبيقات وتتزامن (جميع عمليات إضافة البيانات الجديدة وعمليات الحذف والتحديثات) مع مصادر البيانات الموجودة على نظام الملفات لديك، وGoogle Drive، وSharepoint، وS3، وKafka، وPostgreSQL، وواجهات برمجة تطبيقات البيانات في الوقت الفعلي . أنها تأتي مع عدم وجود تبعيات البنية التحتية التي قد تحتاج إلى إعداد منفصل. وهي تتضمن فهرسة بيانات مدمجة تتيح البحث المتجهي والبحث المختلط والبحث عن النص الكامل - كل ذلك يتم في الذاكرة باستخدام ذاكرة التخزين المؤقت.
يصل حجم قوالب التطبيق المتوفرة في هذا الريبو إلى ملايين الصفحات من المستندات . تم تحسين بعضها من أجل البساطة، والبعض الآخر من أجل دقة مذهلة. اختر ما يناسبك. يمكنك استخدامه خارج الصندوق، أو تغيير بعض خطوات المسار - على سبيل المثال، إذا كنت ترغب في إضافة مصدر بيانات جديد، أو تغيير فهرس المتجهات إلى فهرس مختلط، فهو مجرد تغيير من سطر واحد.
التطبيق (قالب) | وصف |
---|---|
Question-Answering RAG App | تطبيق RAG الأساسي الشامل. مسار للإجابة على الأسئلة يستخدم نموذج GPT المفضل لتقديم إجابات لاستفسارات مستنداتك (PDF، DOCX،...) على مصدر بيانات مباشر متصل (الملفات، Google Drive، Sharepoint،...). يمكنك أيضًا تجربة نقطة نهاية REST التجريبية. |
Live Document Indexing (Vector Store / Retriever) | مسار فهرسة المستندات في الوقت الفعلي لـ RAG الذي يعمل بمثابة خدمة تخزين متجهة. يقوم بإجراء فهرسة مباشرة لمستنداتك (PDF، DOCX،...) من مصدر بيانات متصل (الملفات، Google Drive، Sharepoint،...). يمكن استخدامه مع أي واجهة أمامية، أو دمجه كواجهة خلفية لتطبيق Langchain أو Llamindex. يمكنك أيضًا تجربة نقطة نهاية REST التجريبية. |
Multimodal RAG pipeline with GPT4o | Multimodal RAG باستخدام GPT-4o في مرحلة التحليل لفهرسة ملفات PDF والمستندات الأخرى من ملفات مصدر البيانات المتصلة، Google Drive، Sharepoint،...). إنه مثالي لاستخراج المعلومات من المستندات المالية غير المنظمة في مجلداتك (بما في ذلك المخططات والجداول)، وتحديث النتائج مع تغير المستندات أو وصول مستندات جديدة. |
Unstructured-to-SQL pipeline + SQL question-answering | مثال RAG الذي يتصل بمصادر البيانات المالية غير المنظمة (ملفات PDF للتقارير المالية)، ويبني البيانات في SQL، ويحملها في جدول PostgreSQL. كما أنه يجيب على استفسارات المستخدم باللغة الطبيعية لهذه المستندات المالية عن طريق ترجمتها إلى SQL باستخدام LLM وتنفيذ الاستعلام على جدول PostgreSQL. |
Adaptive RAG App | تطبيق RAG يستخدم Adaptive RAG، وهي تقنية طورتها Pathway لتقليل تكلفة الرمز المميز في RAG بما يصل إلى 4x مع الحفاظ على الدقة. |
Private RAG App with Mistral and Ollama | إصدار خاص (محلي) بالكامل من خط أنابيب RAG demo-question-answering باستخدام Pathway وMistral وOllama. |
Slides AI Search App | خط أنابيب الفهرسة لاسترداد الشرائح. فهو ينفذ وسائط متعددة من PowerPoint وPDF ويحافظ على الفهرس المباشر لشرائحك." |
يمكن تشغيل التطبيقات كحاويات Docker وكشف واجهة برمجة تطبيقات HTTP للاتصال بالواجهة الأمامية. للسماح بالاختبارات والعروض التوضيحية السريعة، تتضمن بعض قوالب التطبيقات أيضًا واجهة مستخدم Streamlit اختيارية تتصل بواجهة برمجة التطبيقات هذه.
تعتمد التطبيقات على إطار عمل Pathway Live Data لمزامنة مصدر البيانات ولخدمة طلبات واجهة برمجة التطبيقات (Pathway عبارة عن مكتبة Python مستقلة بها محرك Rust مدمج بها). إنها توفر لك منطق تطبيق بسيطًا وموحدًا للواجهة الخلفية والتضمين والاسترجاع ومكدس تقنية LLM. ليست هناك حاجة لدمج وصيانة وحدات منفصلة لتطبيق Gen AI الخاص بك: قاعدة بيانات المتجهات (مثل Pinecone/Weaviate/Qdrant) + ذاكرة التخزين المؤقت (مثل Redis) + إطار عمل API (مثل Fast API) . يعتمد اختيار Pathway الافتراضي لفهرس المتجهات المضمن على مكتبة usearch فائقة السرعة، كما تستفيد فهارس النص الكامل المختلطة من مكتبة Tantivy. كل شيء يعمل خارج الصندوق.
يحتوي كل قالب من قوالب التطبيقات الموجودة في هذا الريبو على ملف README.md مع تعليمات حول كيفية تشغيله.
يمكنك أيضًا العثور على المزيد من قوالب التعليمات البرمجية الجاهزة للتشغيل على موقع Pathway الإلكتروني.
يمكنك استخراج بيانات الجدول والمخططات وتنظيمها بسهولة من ملفات PDF والمستندات والمزيد باستخدام RAG متعدد الوسائط - في الوقت الفعلي:
(راجع Multimodal RAG pipeline with GPT4o
لرؤية خط الأنابيب بالكامل في الأعمال. يمكنك أيضًا التحقق من Unstructured-to-SQL pipeline
للحصول على مثال بسيط يعمل مع النماذج غير متعددة الوسائط أيضًا.)
التعدين الآلي للمعرفة في الوقت الحقيقي والتنبيه:
(راجع Alerting when answers change on Google Drive
.)
لتقديم تعليقات أو الإبلاغ عن خطأ، يرجى إثارة مشكلة على أداة تعقب المشكلات لدينا.
أي شخص يرغب في المساهمة في هذا المشروع، سواء كان توثيقًا أو ميزات أو إصلاحات للأخطاء أو تنظيف التعليمات البرمجية أو الاختبار أو مراجعات التعليمات البرمجية، نشجعه كثيرًا على القيام بذلك. إذا كانت هذه هي مساهمتك الأولى في مشروع Github، فإليك دليل البدء.
إذا كنت ترغب في تقديم مساهمة تحتاج إلى المزيد من العمل، فما عليك سوى رفع يدك على خادم Pathway Discord (#get-help) وإخبارنا بما تخطط له!