txtai هي قاعدة بيانات للتضمين الكل في واحد للبحث الدلالي وتنسيق LLM وسير عمل نموذج اللغة.
قواعد بيانات التضمين هي اتحاد بين فهارس المتجهات (المتناثرة والكثيفة)، وشبكات الرسوم البيانية وقواعد البيانات العلائقية.
يتيح هذا الأساس البحث عن المتجهات و/أو يعمل كمصدر معرفي قوي لتطبيقات نماذج اللغة الكبيرة (LLM).
قم ببناء وكلاء مستقلين وعمليات توليد الاسترجاع المعزز (RAG) وسير العمل متعدد النماذج والمزيد.
ملخص ميزات txtai:
تم تصميم txtai باستخدام Python 3.9+، وHugging Face Transformers، وSentence Transformers، وFastAPI. txtai مفتوح المصدر بموجب ترخيص Apache 2.0.
هل أنت مهتم بطريقة سهلة وآمنة لتشغيل تطبيقات txtai المستضافة؟ ثم انضم إلى معاينة txtai.cloud لمعرفة المزيد.
تظهر قواعد بيانات المتجهات الجديدة وأطر عمل LLM وكل شيء بينهما يوميًا. لماذا البناء مع txtai؟
# Get started in a couple lines
import txtai
embeddings = txtai . Embeddings ()
embeddings . index ([ "Correct" , "Not what we hoped" ])
embeddings . search ( "positive" , 1 )
#[(0, 0.29862046241760254)]
# app.yml
embeddings :
path : sentence-transformers/all-MiniLM-L6-v2
CONFIG=app.yml uvicorn " txtai.api:app "
curl -X GET " http://localhost:8000/search?query=positive "
تقدم الأقسام التالية حالات استخدام txtai الشائعة. تتوفر أيضًا مجموعة شاملة تضم أكثر من 60 نموذجًا من دفاتر الملاحظات والتطبيقات.
بناء تطبيقات البحث الدلالي/التشابه/المتجه/العصبي.
تستخدم أنظمة البحث التقليدية الكلمات الرئيسية للعثور على البيانات. يتمتع البحث الدلالي بفهم للغة الطبيعية ويحدد النتائج التي لها نفس المعنى، وليس بالضرورة نفس الكلمات الرئيسية.
ابدأ بالأمثلة التالية.
دفتر | وصف | |
---|---|---|
تقديم تكستاي | نظرة عامة على الوظائف التي توفرها txtai | |
بحث التشابه مع الصور | تضمين الصور والنص في نفس المساحة للبحث | |
بناء قاعدة بيانات ضمان الجودة | مطابقة السؤال مع البحث الدلالي | |
الرسوم البيانية الدلالية | استكشف المواضيع واتصال البيانات وقم بإجراء تحليل الشبكة |
الوكلاء المستقلون، والجيل المعزز للاسترجاع (RAG)، والدردشة مع بياناتك وخطوط الأنابيب وسير العمل التي تتفاعل مع نماذج اللغات الكبيرة (LLMs).
انظر أدناه لمعرفة المزيد.
دفتر | وصف | |
---|---|---|
قوالب سريعة وسلاسل المهام | إنشاء مطالبات النموذج وربط المهام مع سير العمل | |
دمج أطر LLM | دمج llama.cpp وLiteLLM وأطر الإنشاء المخصصة | |
بناء الرسوم البيانية المعرفية مع LLMs | قم ببناء الرسوم البيانية المعرفية باستخدام استخلاص الكيانات المستندة إلى LLM |
يقوم الوكلاء بتوصيل عمليات التضمين وخطوط الأنابيب ومسارات العمل والوكلاء الآخرين معًا لحل المشكلات المعقدة بشكل مستقل.
تم إنشاء وكلاء txtai أعلى إطار عمل Transformers Agent. وهذا يدعم جميع دعم LLMs txtai (Hugging Face، llama.cpp، OpenAI / Claude / AWS Bedrock عبر LiteLLM).
انظر الرابط أدناه لمعرفة المزيد.
دفتر | وصف | |
---|---|---|
ما الجديد في تكتاي 8.0 | وكلاء مع txtai | |
تحليل منشورات الوجه المعانقة باستخدام الرسوم البيانية والوكلاء | استكشف مجموعة بيانات غنية باستخدام تحليل الرسوم البيانية والوكلاء | |
منح الاستقلالية للوكلاء | الوكلاء الذين يقومون بحل المشكلات بشكل متكرر كما يرونه مناسبًا |
يقلل الجيل المعزز من الاسترجاع (RAG) من خطر هلوسة LLM عن طريق تقييد المخرجات بقاعدة معرفية كسياق. يُستخدم RAG بشكل شائع "للدردشة مع بياناتك".
الميزة الجديدة لـ txtai هي أنه يمكن أن يوفر إجابة واستشهادًا بالمصدر.
دفتر | وصف | |
---|---|---|
قم ببناء خطوط أنابيب RAG باستخدام txtai | دليل حول الجيل المعزز للاسترجاع بما في ذلك كيفية إنشاء الاستشهادات | |
كيف يعمل RAG مع txtai | إنشاء عمليات RAG وخدمات API ومثيلات Docker | |
RAG المتقدم مع اجتياز مسار الرسم البياني | اجتياز مسار الرسم البياني لجمع مجموعات معقدة من البيانات لـ RAG المتقدم | |
خطاب إلى كلام RAG | دورة كاملة من الكلام إلى سير عمل الكلام مع RAG |
تعمل مسارات عمل نماذج اللغة، والمعروفة أيضًا باسم مسارات العمل الدلالية، على ربط نماذج اللغة معًا لإنشاء تطبيقات ذكية.
في حين أن LLMs قوية، إلا أن هناك الكثير من النماذج الأصغر حجمًا والأكثر تخصصًا التي تعمل بشكل أفضل وأسرع لمهام محددة. يتضمن ذلك نماذج للإجابة على الأسئلة الاستخراجية، والتلخيص التلقائي، وتحويل النص إلى كلام، والنسخ والترجمة.
دفتر | وصف | |
---|---|---|
تشغيل سير عمل خطوط الأنابيب | بنيات بسيطة لكنها قوية لمعالجة البيانات بكفاءة | |
بناء ملخصات نصية مجردة | قم بتشغيل تلخيص النص التجريدي | |
نسخ الصوت إلى نص | تحويل الملفات الصوتية إلى نص | |
ترجمة النص بين اللغات | تبسيط الترجمة الآلية واكتشاف اللغة |
أسهل طريقة للتثبيت هي عبر النقطة وPyPI
pip install txtai
بايثون 3.9+ مدعوم. يوصى باستخدام بيئة بايثون الافتراضية.
راجع تعليمات التثبيت التفصيلية لمزيد من المعلومات التي تغطي التبعيات الاختيارية والمتطلبات الأساسية الخاصة بالبيئة والتثبيت من المصدر ودعم conda وكيفية التشغيل مع الحاويات.
انظر الجدول أدناه للتعرف على النماذج الحالية الموصى بها. تسمح جميع هذه الطرازات بالاستخدام التجاري وتوفر مزيجًا من السرعة والأداء.
عنصر | النموذج (النماذج) |
---|---|
التضمين | الكل-MiniLM-L6-v2 |
تعليق الصورة | نقطة |
التسميات - صفر طلقة | بارت-كبير-MNLI |
التسميات - ثابت | صقل مع خط أنابيب التدريب |
نموذج اللغة الكبير (LLM) | اللاما 3.1 إرشاد |
تلخيص | ديستيلبارت |
تحويل النص إلى كلام | طائرات اي اس بي نت |
النسخ | الهمس |
ترجمة | سلسلة موديلات OPUS |
يمكن تحميل النماذج إما كمسار من Hugging Face Hub أو كدليل محلي. مسارات النموذج اختيارية، ويتم تحميل الإعدادات الافتراضية عندما لا يتم تحديدها. بالنسبة للمهام التي لا يوجد بها نموذج موصى به، يستخدم txtai النماذج الافتراضية كما هو موضح في دليل Hugging Face Tasks.
انظر الروابط التالية لمعرفة المزيد.
يتم تشغيل التطبيقات التالية بواسطة txtai.
طلب | وصف |
---|---|
com.txtchat | البحث المدعوم من الجيل المعزز للاسترجاع (RAG). |
Paperai | البحث الدلالي وسير العمل للأوراق الطبية / العلمية |
سؤال رمزي | البحث الدلالي للمطورين |
com.tldrstory | البحث الدلالي عن العناوين ونص القصة |
بالإضافة إلى هذه القائمة، هناك أيضًا العديد من المشاريع الأخرى مفتوحة المصدر والأبحاث المنشورة والمشاريع التجارية/الملكية المغلقة التي اعتمدت على txtai في الإنتاج.
تتوفر الوثائق الكاملة عن txtai بما في ذلك إعدادات التكوين لعمليات التضمين وخطوط الأنابيب وسير العمل وواجهة برمجة التطبيقات والأسئلة الشائعة مع الأسئلة/المشكلات الشائعة.
بالنسبة لأولئك الذين يرغبون في المساهمة في txtai، يرجى الاطلاع على هذا الدليل.