تنزيل GPTCache - تنزيل رمز مصدر GPTCache

GPTCache

شفرة المصدر الأخرى

v0.1.44

تنزيل

GPTCache: مكتبة لإنشاء ذاكرة التخزين المؤقت الدلالية لاستعلامات LLM

قم بقطع تكاليف API LLM بمقدار 10x؟ ، زيادة السرعة بمقدار 100x ⚡

؟ تم دمج GPTCache بالكامل مع؟ ️؟ langchain! فيما يلي تعليمات استخدام مفصلة.

؟ تم إصدار صورة Docker Server GPTCACHE ، مما يعني أن أي لغة ستتمكن من استخدام GPTCACHE!

؟ يمر هذا المشروع بتطوير سريع ، وعلى هذا النحو ، قد تخضع واجهة برمجة التطبيقات للتغيير في أي وقت. للحصول على أحدث المعلومات ، يرجى الرجوع إلى أحدث الوثائق وإصدار ملاحظة.

ملاحظة: نظرًا لأن عدد النماذج الكبيرة ينمو بشكل متفجر وتتطور شكل واجهة برمجة التطبيقات الخاصة بهم باستمرار ، لم نعد نضيف دعمًا لواجهة برمجة التطبيقات أو الطرز الجديدة. نحن نشجع استخدام استخدام واجهة برمجة تطبيقات GET and SET في GPTCACHE ، إليك الرمز التجريبي: https://github.com/zilliztech/gptcache/blob/main/examples/adapter/api.py

تثبيت سريع

pip install gptcache

ما هو gptcache؟

تتميز ChatGPT ومختلف نماذج اللغة الكبيرة (LLMS) براعة لا تصدق ، مما يتيح تطوير مجموعة واسعة من التطبيقات. ومع ذلك ، مع نمو شعبية التطبيق الخاص بك ويواجه مستويات مرور أعلى ، يمكن أن تصبح النفقات المتعلقة بمكالمات API LLM كبيرة. بالإضافة إلى ذلك ، قد تظهر خدمات LLM أوقات استجابة بطيئة ، خاصة عند التعامل مع عدد كبير من الطلبات.

لمعالجة هذا التحدي ، أنشأنا GPTCache ، وهو مشروع مخصص لبناء ذاكرة التخزين المؤقت الدلالية لتخزين استجابات LLM.

؟ بداية سريعة

ملحوظة :

يمكنك تجربة GPTCache بسرعة ووضعها في بيئة إنتاج دون تطور شديد. ومع ذلك ، يرجى ملاحظة أن المستودع لا يزال تحت التنمية الثقيلة.
بشكل افتراضي ، يتم تثبيت عدد محدود فقط من المكتبات لدعم وظائف ذاكرة التخزين المؤقت الأساسية. عندما تحتاج إلى استخدام ميزات إضافية ، سيتم تثبيت المكتبات ذات الصلة تلقائيًا .
تأكد من أن إصدار Python هو 3.8.1 أو أعلى ، تحقق: python --version
إذا واجهت مشكلات في تثبيت مكتبة بسبب إصدار PIP منخفض ، قم بتشغيل: python -m pip install --upgrade pip .

تثبيت DEV

 # clone GPTCache repo
git clone -b dev https://github.com/zilliztech/GPTCache.git
cd GPTCache

# install the repo
pip install -r requirements.txt
python setup.py install

مثال الاستخدام

ستساعدك هذه الأمثلة على فهم كيفية استخدام المطابقة الدقيقة والمماثلة مع التخزين المؤقت. يمكنك أيضًا تشغيل المثال على كولاب. والمزيد من الأمثلة التي يمكنك الرجوع إليها

قبل تشغيل المثال ، تأكد من تعيين متغير بيئة OpenAI_API_KEY عن طريق تنفيذ echo $OPENAI_API_KEY .

إذا لم يتم تعيينه بالفعل ، فيمكن تعيينه باستخدام export OPENAI_API_KEY=YOUR_API_KEY على أنظمة UNIX/Linux/MacOS أو set OPENAI_API_KEY=YOUR_API_KEY على أنظمة Windows.

من المهم أن نلاحظ أن هذه الطريقة فعالة فقط مؤقتًا ، لذلك إذا كنت تريد تأثيرًا دائم ، فستحتاج إلى تعديل ملف التكوين المتغير للبيئة. على سبيل المثال ، على جهاز Mac ، يمكنك تعديل الملف الموجود على /etc/profile .

انقر لإظهار رمز المثال

Openai API الاستخدام الأصلي

 import os
import time

import openai


def response_text ( openai_resp ):
    return openai_resp [ 'choices' ][ 0 ][ 'message' ][ 'content' ]


question = 'what‘s chatgpt'

# OpenAI API original usage
openai . api_key = os . getenv ( "OPENAI_API_KEY" )
start_time = time . time ()
response = openai . ChatCompletion . create (
  model = 'gpt-3.5-turbo' ,
  messages = [
    {
        'role' : 'user' ,
        'content' : question
    }
  ],
)
print ( f'Question: { question } ' )
print ( "Time consuming: {:.2f}s" . format ( time . time () - start_time ))
print ( f'Answer: { response_text ( response ) } n ' )

Openai API + GPTCache ، ذاكرة التخزين المؤقت مطابقة بالضبط

إذا طرحت chatgpt نفس السؤالين بالضبط ، فسيتم الحصول على إجابة السؤال الثاني من ذاكرة التخزين المؤقت دون طلب chatgpt مرة أخرى.

 import time


def response_text ( openai_resp ):
    return openai_resp [ 'choices' ][ 0 ][ 'message' ][ 'content' ]

print ( "Cache loading....." )

# To use GPTCache, that's all you need
# -------------------------------------------------
from gptcache import cache
from gptcache . adapter import openai

cache . init ()
cache . set_openai_key ()
# -------------------------------------------------

question = "what's github"
for _ in range ( 2 ):
    start_time = time . time ()
    response = openai . ChatCompletion . create (
      model = 'gpt-3.5-turbo' ,
      messages = [
        {
            'role' : 'user' ,
            'content' : question
        }
      ],
    )
    print ( f'Question: { question } ' )
    print ( "Time consuming: {:.2f}s" . format ( time . time () - start_time ))
    print ( f'Answer: { response_text ( response ) } n ' )

Openai API + GPTCache ، ذاكرة التخزين المؤقت للبحث مماثلة

بعد الحصول على إجابة من ChatGPT ردًا على العديد من الأسئلة المماثلة ، يمكن استرداد الإجابات على الأسئلة اللاحقة من ذاكرة التخزين المؤقت دون الحاجة إلى طلب ChatGPT مرة أخرى.

 import time


def response_text ( openai_resp ):
    return openai_resp [ 'choices' ][ 0 ][ 'message' ][ 'content' ]

from gptcache import cache
from gptcache . adapter import openai
from gptcache . embedding import Onnx
from gptcache . manager import CacheBase , VectorBase , get_data_manager
from gptcache . similarity_evaluation . distance import SearchDistanceEvaluation

print ( "Cache loading....." )

onnx = Onnx ()
data_manager = get_data_manager ( CacheBase ( "sqlite" ), VectorBase ( "faiss" , dimension = onnx . dimension ))
cache . init (
    embedding_func = onnx . to_embeddings ,
    data_manager = data_manager ,
    similarity_evaluation = SearchDistanceEvaluation (),
    )
cache . set_openai_key ()

questions = [
    "what's github" ,
    "can you explain what GitHub is" ,
    "can you tell me more about GitHub" ,
    "what is the purpose of GitHub"
]

for question in questions :
    start_time = time . time ()
    response = openai . ChatCompletion . create (
        model = 'gpt-3.5-turbo' ,
        messages = [
            {
                'role' : 'user' ,
                'content' : question
            }
        ],
    )
    print ( f'Question: { question } ' )
    print ( "Time consuming: {:.2f}s" . format ( time . time () - start_time ))
    print ( f'Answer: { response_text ( response ) } n ' )

Openai API + GPTCache ، استخدم درجة الحرارة

يمكنك دائمًا تمرير معلمة من درجة الحرارة أثناء طلب خدمة أو طراز API.
نطاق temperature هو [0 ، 2] ، القيمة الافتراضية هي 0.0.
درجة الحرارة الأعلى تعني إمكانية أعلى لتخطي البحث عن ذاكرة التخزين المؤقت وطلب نموذج كبير مباشرة. عندما تكون درجة الحرارة 2 ، فإنها ستخطي ذاكرة التخزين المؤقت وإرسال الطلب إلى طراز كبير مباشرة. عندما تكون درجة الحرارة 0 ، فإنها ستبحث عن ذاكرة التخزين المؤقت قبل طلب خدمة نموذج كبيرة.
الافتراضي post_process_messages_func هو temperature_softmax . في هذه الحالة ، راجع مرجع API لمعرفة كيفية تأثير temperature على الإنتاج.

 import time

from gptcache import cache , Config
from gptcache . manager import manager_factory
from gptcache . embedding import Onnx
from gptcache . processor . post import temperature_softmax
from gptcache . similarity_evaluation . distance import SearchDistanceEvaluation
from gptcache . adapter import openai

cache . set_openai_key ()

onnx = Onnx ()
data_manager = manager_factory ( "sqlite,faiss" , vector_params = { "dimension" : onnx . dimension })

cache . init (
    embedding_func = onnx . to_embeddings ,
    data_manager = data_manager ,
    similarity_evaluation = SearchDistanceEvaluation (),
    post_process_messages_func = temperature_softmax
    )
# cache.config = Config(similarity_threshold=0.2)

question = "what's github"

for _ in range ( 3 ):
    start = time . time ()
    response = openai . ChatCompletion . create (
        model = "gpt-3.5-turbo" ,
        temperature = 1.0 ,  # Change temperature here
        messages = [{
            "role" : "user" ,
            "content" : question
        }],
    )
    print ( "Time elapsed:" , round ( time . time () - start , 3 ))
    print ( "Answer:" , response [ "choices" ][ 0 ][ "message" ][ "content" ])

لاستخدام GPTCache على وجه الحصر ، لا يلزم سوى الأسطر التالية من التعليمات البرمجية ، وليس هناك حاجة لتعديل أي رمز موجود.

 from gptcache import cache
from gptcache . adapter import openai

cache . init ()
cache . set_openai_key ()

المزيد من المستندات ：

الاستخدام ، كيفية استخدام gptcache أفضل
الميزات ، جميع الميزات التي تدعمها حاليًا ذاكرة التخزين المؤقت
أمثلة ، تعلم التخزين المؤقت المخصص بشكل أفضل
التخزين المؤقت الموزعة والتحجيم الأفقي

؟ Bootcamp

GPTCache مع Langchain
- جيل ضمان الجودة
- إجابة سؤال
- سلسلة SQL
- دليل مستخدم Babyagi
gptcache مع llama_index
- صفحة الويب QA
GPTCache مع Openai
- الانتهاء من الدردشة
- ترجمة اللغة
- SQL ترجمة
- مصنف تويتر
- متعدد الوسائط: توليد الصور
- متعدد الوسائط: خطاب إلى نص
gptcache مع النسخ المتماثل
- إجابة السؤال المرئي
GPTCache مع درجة حرارة بارام
- دردشة Openai
- خلق صورة Openai

؟ ماذا يمكن أن يساعد هذا؟

تقدم GPTCache الفوائد الأساسية التالية:

النفقات المنخفضة : معظم خدمات خدمات LLM استنادًا إلى مجموعة من عدد الطلبات وعدد الرمز المميز. يقلل GPTCACHE بشكل فعال من نفقاتك عن طريق التخزين المؤقت لنتائج الاستعلام ، مما يقلل بدوره من عدد الطلبات والرموز المرسلة إلى خدمة LLM. نتيجة لذلك ، يمكنك الاستمتاع بتجربة أكثر كفاءة من حيث التكلفة عند استخدام الخدمة.
الأداء المحسّن : تستخدم LLMs خوارزميات منظمة العفو الدولية لتوليد استجابات في الوقت الفعلي ، وهي عملية قد تستغرق وقتًا طويلاً في بعض الأحيان. ومع ذلك ، عندما يتم تخزين استفسار مماثل ، يتحسن وقت الاستجابة بشكل كبير ، مع جلب النتيجة مباشرة من ذاكرة التخزين المؤقت ، مما يلغي الحاجة إلى التفاعل مع خدمة LLM. في معظم المواقف ، يمكن لـ GPTCACHE أيضًا توفير إنتاجية فائقة للاستعلام مقارنة بخدمات LLM القياسية.
بيئة التطوير والاختبار القابلة للتكيف : كمطور يعمل على تطبيقات LLM ، فأنت تدرك أن الاتصال بواجهة برمجة التطبيقات LLM ضروري بشكل عام ، والاختبار الشامل لتطبيقك أمر بالغ الأهمية قبل نقله إلى بيئة الإنتاج. يوفر GPTCACHE واجهة تعكس واجهات برمجة التطبيقات LLM وتستوعب تخزين كل من البيانات التي تم إنشاؤها وسخرتها LLM. تمكنك هذه الميزة من تطوير واختبار تطبيقك دون عناء ، والتخلص من الحاجة إلى الاتصال بخدمة LLM.
تحسين قابلية التوسع وتوافرها : خدمات LLM في كثير من الأحيان تنفذ حدود الأسعار ، وهي قيود على وضع واجهات برمجة التطبيقات في عدد المرات التي يمكن للمستخدم فيها أو العميل الوصول إلى الخادم ضمن إطار زمني معين. يعني ضرب حد السعر أنه سيتم حظر الطلبات الإضافية حتى تنقضي فترة معينة ، مما يؤدي إلى انقطاع الخدمة. باستخدام GPTCache ، يمكنك التوسع بسهولة لاستيعاب حجم متزايد من الاستعلامات ، مما يضمن أداء ثابت مع توسيع قاعدة مستخدمي التطبيق.

؟ كيف تعمل؟

غالبًا ما تعرض الخدمات عبر الإنترنت موقع بيانات ، حيث يصل المستخدمون بشكل متكرر إلى المحتوى الشائع أو المتجه. تستفيد أنظمة ذاكرة التخزين المؤقت من هذا السلوك عن طريق تخزين البيانات التي يتم الوصول إليها بشكل شائع ، والتي بدورها تقلل من وقت استرجاع البيانات ، ويحسن أوقات الاستجابة ، ويخفف من عبء الخوادم الخلفية. عادةً ما تستخدم أنظمة ذاكرة التخزين المؤقت التقليدية مطابقة دقيقة بين استعلام جديد واستعلام مخزنة مؤقتًا لتحديد ما إذا كان المحتوى المطلوب متاحًا في ذاكرة التخزين المؤقت قبل جلب البيانات.

ومع ذلك ، فإن استخدام نهج المطابقة الدقيق لذاكرة التخزين المؤقت LLM أقل فعالية بسبب تعقيد وتباين استعلامات LLM ، مما يؤدي إلى انخفاض معدل ذاكرة التخزين المؤقت. لمعالجة هذه المسألة ، تتبنى GPTCache استراتيجيات بديلة مثل التخزين المؤقت الدلالي. يحدد التخزين المؤقت الدلالي ويخزن استعلامات مماثلة أو ذات صلة ، وبالتالي زيادة احتمالية ذاكرة التخزين المؤقت وتعزيز كفاءة التخزين المؤقت بشكل عام.

توظف GPTCache دمج خوارزميات لتحويل الاستعلامات إلى تضمينات وتستخدم متجر ناقلات للبحث عن التشابه على هذه التضمينات. تتيح هذه العملية GPTCache تحديد واسترداد استعلامات مماثلة أو ذات صلة من تخزين ذاكرة التخزين المؤقت ، كما هو موضح في قسم الوحدات النمطية.

يتميز GPTCache بتصميم وحدات ، يسهل على المستخدمين تخصيص ذاكرة التخزين المؤقت الدلالية الخاصة بهم. يقدم النظام تطبيقات مختلفة لكل وحدة ، ويمكن للمستخدمين حتى تطوير تطبيقاتهم الخاصة لتناسب احتياجاتهم الخاصة.

في ذاكرة التخزين المؤقت الدلالية ، قد تواجه إيجابيات كاذبة أثناء ضربات ذاكرة التخزين المؤقت والسلبيات الخاطئة أثناء مخيفين ذاكرة التخزين المؤقت. تقدم GPTCache ثلاث مقاييس لقياس أدائها ، وهو أمر مفيد للمطورين لتحسين أنظمة التخزين المؤقت الخاصة بهم:

نسبة HIT : يحدد هذا المقياس قدرة ذاكرة التخزين المؤقت على تلبية طلبات المحتوى بنجاح ، مقارنةً بإجمالي عدد الطلبات التي يتلقاها. تشير نسبة ضرب أعلى إلى ذاكرة التخزين المؤقت أكثر فعالية.
الكمون : يقيس هذا المقياس الوقت الذي يستغرقه معالجة الاستعلام واستعادة البيانات المقابلة من ذاكرة التخزين المؤقت. يدل زمن الانتقال الأدنى على نظام تخزين مؤقت أكثر كفاءة واستجابة.
أذكر : يمثل هذا المقياس نسبة الاستعلامات التي تخدمها ذاكرة التخزين المؤقت من إجمالي عدد الاستعلامات التي كان ينبغي تقديمها بواسطة ذاكرة التخزين المؤقت. تشير نسب الاستدعاء الأعلى إلى أن ذاكرة التخزين المؤقت تخدم المحتوى المناسب بشكل فعال.

يتم تضمين معيار عينة للمستخدمين للبدء في تقييم أداء ذاكرة التخزين المؤقت الدلالية.

؟ الوحدات النمطية

GPTCache Struct

محول LLM : تم تصميم محول LLM لدمج نماذج LLM المختلفة عن طريق توحيد بروتوكولات واجهات برمجة التطبيقات وطلب. تقدم GPTCache واجهة موحدة لهذا الغرض ، مع الدعم الحالي لتكامل ChatGPT.
- دعم Openai ChatGpt API.
- دعم langchain.
- دعم minigpt4.
- دعم llamacpp.
- دعم دوللي.
- دعم LLMs الأخرى ، مثل Hugging Face Hub ، Bard ، Anthropic.
محول متعدد الوسائط (تجريبي) : تم تصميم المحول متعدد الوسائط لدمج نماذج مختلفة متعددة الوسائط مختلفة عن طريق توحيد بروتوكولات واجهات برمجة التطبيقات وطلب. يوفر GPTCACHE واجهة موحدة لهذا الغرض ، مع الدعم الحالي لدمج توليد الصور ، نسخ الصوت.
- دعم صورة Openai إنشاء API.
- دعم Openai Audio API.
- دعم تكرار وبات واجهة برمجة التطبيقات.
- دعم الاستقرار API.
- دعم معانقة خط أنابيب انتشار مستقر (الاستدلال المحلي).
- دعم الخدمات المتعددة الوسائط الأخرى أو النماذج الكبيرة متعددة الوسائط المستضافة ذاتيا.
مولد التضمين : يتم إنشاء هذه الوحدة لاستخراج التضمين من طلبات البحث عن التشابه. تقدم GPTCache واجهة عامة تدعم واجهات برمجة التطبيقات المتعددة التضمين ، وتقدم مجموعة من الحلول للاختيار من بينها.
- تعطيل التضمين. سيؤدي ذلك إلى تحويل GPTCache إلى ذاكرة التخزين المؤقت لتطابق الكلمات الرئيسية.
- دعم Openai تضمين API.
- دعم ONNX مع نموذج GPTCACHE/PRAPRARASE-ALBERT-ONNX.
- دعم تعانق التضمين مع المحولات ، Vitmodel ، Data2Vecaudio.
- دعم COREME تضمين واجهة برمجة التطبيقات.
- دعم Fasttext التضمين.
- دعم SectenCetransformers التضمين.
- دعم نماذج TIMM لتضمين الصور.
- دعم آبار واجهات برمجة التطبيقات الأخرى التضمين.
تخزين ذاكرة التخزين المؤقت : تخزين تخزين ذاكرة التخزين المؤقت هو المكان الذي يتم فيه تخزين استجابة LLMS ، مثل ChatGPT. يتم استرداد الاستجابات المخزنة مؤقتًا للمساعدة في تقييم التشابه ويتم إرجاعها إلى الطالب إذا كانت هناك تطابق دلالي جيد. في الوقت الحاضر ، تدعم GPTCACHE SQLITE وتوفر واجهة يمكن الوصول إليها عالميًا لتمديد هذه الوحدة.
- دعم sqlite.
- دعم duckdb.
- دعم postgresql.
- دعم mysql.
- دعم Mariadb.
- دعم SQL Server.
- دعم أوراكل.
- دعم DynamoDB.
- دعم mongodb.
- دعم redis.
- دعم minio.
- دعم HBase.
- دعم Elasticsearch.
- دعم storages الأخرى.
متجر Vector : تساعد وحدة Store Vector في العثور على أكثر الطلبات K مماثلة من التضمين المستخرج من طلب الإدخال. يمكن أن تساعد النتائج في تقييم التشابه. يوفر GPTCACHE واجهة سهلة الاستخدام تدعم متاجر المتجهات المختلفة ، بما في ذلك Milvus و Zilliz Cloud و FAISS. المزيد من الخيارات ستكون متاحة في المستقبل.
- دعم Milvus ، قاعدة بيانات متجه مفتوح المصدر لتطبيقات AI/LLM جاهزة للإنتاج.
- دعم Zilliz Cloud ، قاعدة بيانات ناقل سحابة تتم إدارتها بالكامل تعتمد على Milvus.
- دعم Milvus Lite ، وهي نسخة خفيفة الوزن من Milvus التي يمكن تضمينها في تطبيق Python الخاص بك.
- دعم Faiss ، مكتبة للبحث الفعال في التشابه وتجميع المتجهات الكثيفة.
- دعم HNSWLIB ، رأس C ++/Python فقط لتقريب سريع أقرب الجيران.
- دعم PGVector ، البحث عن المتجه مفتوح المصدر بحث عن postgres.
- دعم Chroma ، قاعدة بيانات التضمين منظمة AI-Open Open Open Open.
- دعم DocArray ، Docarray هي مكتبة لتمثيل وإرسال وتخزين بيانات متعددة الوسائط ، مثالية لتطبيقات التعلم الآلي.
- دعم qdrant
- دعم weaviate
- دعم قواعد بيانات المتجهات الأخرى.
مدير التخزين المؤقت : مدير التخزين المؤقت مسؤول عن التحكم في تشغيل كل من تخزين ذاكرة التخزين المؤقت ومتجر المتجهات .
- سياسة الإخلاء : يمكن إدارة إخلاء ذاكرة التخزين المؤقت في الذاكرة باستخدام cachetools في Python أو بطريقة موزعة باستخدام Redis كمتجر القيمة الرئيسية.
- التخزين المؤقت في الذاكرة
حاليًا ، تتخذ GPTCache قرارات بشأن عمليات الإخلاء تعتمد فقط على عدد الخطوط. يمكن أن يؤدي هذا النهج إلى تقييم غير دقيق للموارد وقد يسبب أخطاء خارج الذاكرة (OOM). نحن نحقق بنشاط وتطوير استراتيجية أكثر تطوراً.
- دعم سياسة الإخلاء LRU.
- دعم سياسة الإخلاء FIFO.
- دعم سياسة إخلاء LFU.
- دعم سياسة إخلاء RR.
- دعم سياسات الإخلاء الأكثر تعقيدًا.
- التخزين المؤقت الموزعة
إذا كنت ترغب في توسيع نطاق نشر GPTCACHE أفقياً باستخدام التخزين المؤقت في الذاكرة ، فلن يكون ذلك ممكنًا. نظرًا لأن المعلومات المخزنة مؤقتًا ستقتصر على جراب واحد.
مع التخزين المؤقت الموزع ، معلومات ذاكرة التخزين المؤقت متسقة في جميع النسخ المتماثلة ، يمكننا استخدام متاجر ذاكرة التخزين المؤقت الموزعة مثل redis.
- دعم ذاكرة التخزين المؤقت الموزعة
- دعم ذاكرة التخزين المؤقت الموزعة memcached
مُقيِّم التشابه : تجمع هذه الوحدة البيانات من كل من تخزين ذاكرة التخزين المؤقت ومتجر المتجهات ، وتستخدم استراتيجيات مختلفة لتحديد التشابه بين طلب الإدخال والطلبات من متجر المتجهات . بناءً على هذا التشابه ، يحدد ما إذا كان الطلب يطابق ذاكرة التخزين المؤقت. يوفر GPTCache واجهة موحدة لدمج الاستراتيجيات المختلفة ، إلى جانب مجموعة من التطبيقات لاستخدامها. يتم دعم تعريفات التشابه التالية حاليًا أو سيتم دعمها في المستقبل:
- المسافة التي نحصل عليها من متجر المتجهات .
- تشابه قائم على النموذج المحدد باستخدام نموذج GPTCache/Albert-Duplicate-Onnx من ONNX.
- المطابقة الدقيقة بين طلب الإدخال والطلبات التي تم الحصول عليها من متجر Vector .
- المسافة التي يمثلها تطبيق linalg.norm من numpy إلى التضمينات.
- BM25 وقياسات التشابه الأخرى.
- دعم إطار عمل نموذج آخر مثل Pytorch.
ملاحظة : قد لا تكون جميع مجموعات الوحدات النمطية المختلفة متوافقة مع بعضها البعض. على سبيل المثال ، إذا قمنا بتعطيل مستخرج التضمين ، فقد لا يعمل متجر المتجهات على النحو المقصود. نحن نعمل حاليًا على تنفيذ فحص عقلاني لـ GPTCache .