Скачать GPTCache - Загрузка исходного кода GPTCache

GPTCache

Другой исходный код

v0.1.44

Скачать

GPTCache: библиотека для создания семантического кеша для запросов LLM

Сбросьте свой API LLM в 10 раз?, Ускорение скорости в 100x ⚡

? GPTCache был полностью интегрирован? ️ Langchain! Вот подробные инструкции по использованию.

? Было выпущено изображение Docker Docker GPTCache Server, что означает, что любой язык сможет использовать GPTCache!

? Этот проект подвергается быстрому развитию, и, как таковой, API может быть изменен в любое время. Для получения наиболее актуальной информации, пожалуйста, обратитесь к последней документации и выпуску.

Примечание. Поскольку количество больших моделей растет взрывоопасно, а их форма API постоянно развивается, мы больше не добавляем поддержки для новых API или моделей. Мы поощряем использование API Get и Set в GPTCache, вот демонстрационный код: https://github.com/zilliztech/gptcache/blob/main/examples/adapter/api.py

Быстрая установка

pip install gptcache

Что такое gptcache?

CHATGPT и различные крупные языковые модели (LLMS) имеют невероятную универсальность, что позволяет разработать широкий спектр приложений. Однако по мере того, как ваше приложение растет в популярности и сталкивается с более высокими уровнями трафика, расходы, связанные с вызовами API LLM, могут стать существенными. Кроме того, услуги LLM могут демонстрировать медленное время отклика, особенно при работе со значительным количеством запросов.

Чтобы решить эту проблему, мы создали GPTCache, проект, посвященный созданию семантического кеша для хранения ответов LLM.

? Быстрый старт

Примечание :

Вы можете быстро попробовать GPTCache и поместить его в производственную среду без тяжелого развития. Тем не менее, обратите внимание, что репозиторий все еще находится в тяжелом развитии.
По умолчанию установлено только ограниченное количество библиотек для поддержки основных функциональных возможностей кэша. Когда вам нужно использовать дополнительные функции, соответствующие библиотеки будут автоматически установлены .
Убедитесь, что версия Python составляет 3,8,1 или выше , проверьте: python --version
Если вы столкнетесь с проблемами, установленными библиотекой из -за низкой версии PIP, запустите: python -m pip install --upgrade pip .

DEV установка

 # clone GPTCache repo
git clone -b dev https://github.com/zilliztech/GPTCache.git
cd GPTCache

# install the repo
pip install -r requirements.txt
python setup.py install

Пример использования

Эти примеры помогут вам понять, как использовать точное и похожее сопоставление с кэшированием. Вы также можете запустить пример на Colab. И больше примеров вы можете обратиться к Bootcamp

Прежде чем запустить пример, убедитесь, что переменная среды openai_api_key установлена путем выполнения echo $OPENAI_API_KEY .

Если он еще не установлен, его можно установить с помощью export OPENAI_API_KEY=YOUR_API_KEY on unix/linux/macos systems или set OPENAI_API_KEY=YOUR_API_KEY в системах Windows.

Важно отметить, что этот метод эффективен только временно, поэтому, если вы хотите постоянный эффект, вам необходимо изменить файл конфигурации переменной среды. Например, на Mac вы можете изменить файл, расположенный по адресу /etc/profile .

Нажмите, чтобы показать пример кода

OpenAI API оригинальное использование

 import os
import time

import openai


def response_text ( openai_resp ):
    return openai_resp [ 'choices' ][ 0 ][ 'message' ][ 'content' ]


question = 'what‘s chatgpt'

# OpenAI API original usage
openai . api_key = os . getenv ( "OPENAI_API_KEY" )
start_time = time . time ()
response = openai . ChatCompletion . create (
  model = 'gpt-3.5-turbo' ,
  messages = [
    {
        'role' : 'user' ,
        'content' : question
    }
  ],
)
print ( f'Question: { question } ' )
print ( "Time consuming: {:.2f}s" . format ( time . time () - start_time ))
print ( f'Answer: { response_text ( response ) } n ' )

OpenAI API + gptCache, точный кэш совпадения

Если вы задаете CHATGPT то же самое два вопроса, ответ на второй вопрос будет получен из кэша, не запрашивая CHATGPT снова.

 import time


def response_text ( openai_resp ):
    return openai_resp [ 'choices' ][ 0 ][ 'message' ][ 'content' ]

print ( "Cache loading....." )

# To use GPTCache, that's all you need
# -------------------------------------------------
from gptcache import cache
from gptcache . adapter import openai

cache . init ()
cache . set_openai_key ()
# -------------------------------------------------

question = "what's github"
for _ in range ( 2 ):
    start_time = time . time ()
    response = openai . ChatCompletion . create (
      model = 'gpt-3.5-turbo' ,
      messages = [
        {
            'role' : 'user' ,
            'content' : question
        }
      ],
    )
    print ( f'Question: { question } ' )
    print ( "Time consuming: {:.2f}s" . format ( time . time () - start_time ))
    print ( f'Answer: { response_text ( response ) } n ' )

OpenAI API + GPTCache, аналогичный кэш поиска

После получения ответа от Chatgpt в ответ на несколько подобных вопросов ответы на последующие вопросы могут быть извлечены из кэша без необходимости снова запросить CHATGPT.

 import time


def response_text ( openai_resp ):
    return openai_resp [ 'choices' ][ 0 ][ 'message' ][ 'content' ]

from gptcache import cache
from gptcache . adapter import openai
from gptcache . embedding import Onnx
from gptcache . manager import CacheBase , VectorBase , get_data_manager
from gptcache . similarity_evaluation . distance import SearchDistanceEvaluation

print ( "Cache loading....." )

onnx = Onnx ()
data_manager = get_data_manager ( CacheBase ( "sqlite" ), VectorBase ( "faiss" , dimension = onnx . dimension ))
cache . init (
    embedding_func = onnx . to_embeddings ,
    data_manager = data_manager ,
    similarity_evaluation = SearchDistanceEvaluation (),
    )
cache . set_openai_key ()

questions = [
    "what's github" ,
    "can you explain what GitHub is" ,
    "can you tell me more about GitHub" ,
    "what is the purpose of GitHub"
]

for question in questions :
    start_time = time . time ()
    response = openai . ChatCompletion . create (
        model = 'gpt-3.5-turbo' ,
        messages = [
            {
                'role' : 'user' ,
                'content' : question
            }
        ],
    )
    print ( f'Question: { question } ' )
    print ( "Time consuming: {:.2f}s" . format ( time . time () - start_time ))
    print ( f'Answer: { response_text ( response ) } n ' )

OpenAI API + GPTCache, используйте температуру

Вы всегда можете передать параметр температуры, запрашивая услугу или модель API.
Диапазон temperature составляет [0, 2], значение по умолчанию составляет 0,0.
Более высокая температура означает более высокую вероятность пропуска поиска и запроса на большую модель напрямую. Когда температура составляет 2, он будет наверняка пропустить кэш и отправлять запрос на большую модель. Когда температура равен 0, он будет искать кэш, прежде чем запрашивать большую модельную службу.
По умолчанию post_process_messages_func - это temperature_softmax . В этом случае обратитесь к ссылке API, чтобы узнать, как temperature влияет на выход.

 import time

from gptcache import cache , Config
from gptcache . manager import manager_factory
from gptcache . embedding import Onnx
from gptcache . processor . post import temperature_softmax
from gptcache . similarity_evaluation . distance import SearchDistanceEvaluation
from gptcache . adapter import openai

cache . set_openai_key ()

onnx = Onnx ()
data_manager = manager_factory ( "sqlite,faiss" , vector_params = { "dimension" : onnx . dimension })

cache . init (
    embedding_func = onnx . to_embeddings ,
    data_manager = data_manager ,
    similarity_evaluation = SearchDistanceEvaluation (),
    post_process_messages_func = temperature_softmax
    )
# cache.config = Config(similarity_threshold=0.2)

question = "what's github"

for _ in range ( 3 ):
    start = time . time ()
    response = openai . ChatCompletion . create (
        model = "gpt-3.5-turbo" ,
        temperature = 1.0 ,  # Change temperature here
        messages = [{
            "role" : "user" ,
            "content" : question
        }],
    )
    print ( "Time elapsed:" , round ( time . time () - start , 3 ))
    print ( "Answer:" , response [ "choices" ][ 0 ][ "message" ][ "content" ])

Чтобы использовать GPTCache исключительно, требуются только следующие строки кода, и нет необходимости изменять какой -либо существующий код.

 from gptcache import cache
from gptcache . adapter import openai

cache . init ()
cache . set_openai_key ()

Больше документов:

Использование, как лучше использовать gptcache
Функции, все функции, в настоящее время поддерживаемые кэшем
Примеры, изучать более качественное кэширование
Распределенное кэширование и горизонтальное масштабирование

? Буткемп

Gptcache с Langchain
- QA поколение
- Ответ на вопрос
- SQL Chain
- Руководство пользователя Babyagi
Gptcache с Llama_index
- Веб -страница QA
Gptcache с Openai
- Завершение чата
- Языковой перевод
- SQL Перевод
- Классификатор Twitter
- Мультимодальный: генерация изображений
- Мультимодальный: речь в текст
Gptcache с репликацией
- Визуальный вопрос ответа
Gptcache с температурной параметром
- Openai Chat
- Openai Image Creation

? Чем это может помочь?

GPTCache предлагает следующие основные преимущества:

Снижение расходов : большинство услуг LLM взимают плату за сочетание количества запросов и количества токенов. GPTCache эффективно сводит к минимуму ваши расходы, результаты запроса кэширования, что, в свою очередь, уменьшает количество запросов и токенов, отправляемых в службу LLM. В результате вы можете насладиться более экономичным опытом при использовании услуг.
Улучшенная производительность : LLM используют генеративные алгоритмы ИИ для генерации ответов в режиме реального времени, процесс, который иногда может быть трудоемким. Однако, когда аналогичный запрос кэшируется, время отклика значительно улучшается, так как результат извлекается непосредственно из кеша, что устраняет необходимость взаимодействия с службой LLM. В большинстве ситуаций GPTCache также может обеспечить превосходную пропускную способность запроса по сравнению со стандартными услугами LLM.
Адаптируемая среда разработки и тестирования : как разработчик, работающий над приложениями LLM, вы знаете, что подключение к API LLM, как правило, необходимо, и комплексное тестирование вашего приложения имеет решающее значение, прежде чем перемещать его в производственную среду. GPTCache предоставляет интерфейс, который отражает API LLM и размещает хранение как LLM-генерируемых, так и издевательных данных. Эта функция позволяет вам легко разрабатывать и проверять ваше приложение, устраняя необходимость подключения к службе LLM.
Улучшенная масштабируемость и доступность : Услуги LLM часто обеспечивают ограничения скорости, которые являются ограничениями, которые API устанавливают, сколько раз, когда пользователь или клиент могут получить доступ к серверу в течение определенного периода времени. Нанесение ограничения ставки означает, что дополнительные запросы будут заблокированы до тех пор, пока не будет пройден определенный период, что приведет к отключению обслуживания. С помощью GPTCache вы можете легко масштабироваться, чтобы приспособиться к увеличению объема запросов, обеспечивая постоянную производительность по мере расширения пользовательской базы вашего приложения.

? Как это работает?

Онлайн -сервисы часто демонстрируют местонахождение данных, когда пользователи часто получают доступ к популярному или трендовому контенту. Кэш -системы используют это поведение, сохраняя широко доступные данные, что, в свою очередь, сокращает время поиска данных, улучшает время отклика и облегчает бремя на серверах бэкэнд. Традиционные системы кэша обычно используют точное совпадение между новым запросом и кэшированным запросом, чтобы определить, доступен ли запрашиваемый контент в кэше перед получением данных.

Тем не менее, использование точного подхода к совпадению для кэша LLM менее эффективно из -за сложности и изменчивости запросов LLM, что приводит к низкой скорости попадания в кэш. Чтобы решить эту проблему, GPTCache принимает альтернативные стратегии, такие как семантическое кэширование. Семантическое кэширование идентифицирует и хранит сходные или связанные запросы, тем самым увеличивая вероятность попадания кэша и повышая общую эффективность кэширования.

GPTCache использует алгоритмы встраивания для преобразования запросов в встраиваемые встроения и использует векторный хранилище для поиска сходства на этих вставках. Этот процесс позволяет GPTCache идентифицировать и извлекать аналогичные или связанные запросы из хранилища кэша, как показано в разделе модулей.

Представляя модульный дизайн, GPTCache позволяет пользователям легко настраивать свой собственный семантический кеш. Система предлагает различные реализации для каждого модуля, и пользователи могут даже разработать свои собственные реализации в соответствии с их конкретными потребностями.

В семантическом кэше вы можете столкнуться с ложными положительными, во время хитов в кешах и ложных негативных препаратов во время промахи кэша. GPTCache предлагает три показателя для оценки его производительности, которые полезны для разработчиков, чтобы оптимизировать свои системы кэширования:

Коэффициент попадания : этот показатель количественно определяет способность кэша успешно выполнять запросы на содержание по сравнению с общим количеством запросов, которые он получает. Более высокий коэффициент попадания указывает на более эффективный кэш.
Задержка : этот показатель измеряет время, необходимое для обработки запроса, и соответствующие данные, которые будут извлечены из кэша. Более низкая задержка означает более эффективную и отзывчивую систему кэширования.
Напомним : этот показатель представляет собой долю запросов, обслуживаемых кэшем из общего числа запросов, которые должны были быть обслуживаемыми в кеше. Более высокие проценты отзыва показывают, что кэш эффективно обслуживает соответствующий контент.

Для пользователей включен образец, чтобы начать с оценки производительности их семантического кеша.

? Модули

Gptcache struct

Адаптер LLM : адаптер LLM предназначен для интеграции различных моделей LLM путем объединения их API и протоколов запроса. GPTCache предлагает стандартизированный интерфейс для этой цели с текущей поддержкой интеграции CHATGPT.
- Поддержка Openai Chatgpt API.
- Поддержите Лэнгчейн.
- Поддержка Minigpt4.
- Поддержка Lmamacpp.
- Поддержка Долли.
- Поддержите другие LLM, такие как обнимание Hub Hub, Bard, Anpropic.
Мультимодальный адаптер (экспериментальный) : мультимодальный адаптер предназначен для интеграции различных крупных мультимодальных моделей путем объединения их API и протоколов запроса. GPTCache предлагает стандартизированный интерфейс для этой цели с текущей поддержкой интеграции генерации изображений, аудио транскрипции.
- Поддержка Openai Image Create API.
- Поддержка Apeplai Audio Transcribe API.
- Поддержка Replicate Blip API.
- Поддержка стабильности вывода API.
- Поддержка обнимающего лицо стабильного диффузионного трубопровода (локальный вывод).
- Поддерживать другие мультимодальные услуги или самостоятельные большие мультимодальные модели.
Встроенный генератор : этот модуль создан для извлечения внедрения из запросов на поиск сходства. GPTCache предлагает общий интерфейс, который поддерживает множество API -интерфейсов, и представляет ряд решений на выбор.
- Отключить внедрение. Это превратит gptcache в кэш сопоставления ключевых слов.
- Поддержка Openai встраивает API.
- Поддержите Onnx с моделью GPTCache/Parphrase-Albert-Onx.
- Поддержка обнимающего лица, встраиваемое с трансформаторами, Vitmodel, Data2Vecaudio.
- Поддержка Cohere внедряет API.
- Поддержка Fasttext Enlceding.
- Поддержка SentenceTransformers встраивает.
- Поддержите модели Timm для встраивания изображений.
- Поддержать другие встраиваемые API.
Хранение кеша : хранилище кэша - это то, где хранится ответ от LLM, такой как CHATGPT. Получены кэшированные ответы, чтобы помочь в оценке сходства и возвращаются запрашиванию, если есть хороший семантический матч. В настоящее время GPTCache поддерживает SQLite и предлагает универсально доступный интерфейс для расширения этого модуля.
- Поддержка SQLite.
- Поддержка DuckDB.
- Поддержка Postgresql.
- Поддержите MySQL.
- Поддержка MariaDB.
- Поддержка SQL Server.
- Поддержка Oracle.
- Поддержка DynamoDB.
- Поддержка MongoDB.
- Поддержка Redis.
- Поддержка Minio.
- Поддержка Hbase.
- Поддержка Elasticsearch.
- Поддержать другие стека.
Vector Store : модуль векторного хранилища помогает найти k наиболее похожие запросы из извлеченного внедрения запроса входного запроса. Результаты могут помочь оценить сходство. GPTCache предоставляет удобный интерфейс, который поддерживает различные векторные магазины, включая Milvus, Zilliz Cloud и Faiss. Больше вариантов будет доступно в будущем.
- Поддержите Milvus, векторную базу данных с открытым исходным кодом для готового производства AI/LLM Applicationts.
- Поддержка Zilliz Cloud, полностью управляемой базы данных облачного вектора, основанной на Milvus.
- Поддержите Milvus Lite, легкую версию Milvus, которая может быть встроена в ваше приложение Python.
- Поддержите Faiss, библиотеку для эффективного поиска сходства и кластеризации плотных векторов.
- Поддержите Hnswlib, только заголовок C ++/Python Library для быстрого приблизительного ближайших соседей.
- Поддержка PGVector, сходство сходного сходства с открытым исходным кодом для Postgres.
- Поддержка Chroma, AI-немой, встраиваемой базы данных с открытым исходным кодом.
- Поддержка Docarray, Docarray-это библиотека для представления, отправки и хранения многомодальных данных, идеально подходящих для приложений машинного обучения.
- Поддержка Qdrant
- Поддержка Weaviate
- Поддержка других векторных баз данных.
Cache Manager : Cache Manager отвечает за управление работой как хранилища кэша , так и векторного хранилища .
- Политика выселения : кеш-выселение может управляться в памяти с помощью cachetools Python или распределенным образом, используя Redis в качестве магазина ключей.
- Кэширование в памяти
В настоящее время GPTCache принимает решения о выселениях, основанных исключительно на количестве строк. Этот подход может привести к неточной оценке ресурсов и может вызвать ошибки вне памяти (OOM). Мы активно исследуем и разрабатываем более сложную стратегию.
- Поддержка политики выселения LRU.
- Поддержать политику выселения FIFO.
- Поддержка политики выселения LFU.
- Поддержать политику выселения RR.
- Поддержать более сложные политики выселения.
- Распределенное кэширование
Если вы должны были масштабировать свое развертывание GPTCache горизонтально с использованием кэширования в памяти, это не будет возможно. Поскольку кэшированная информация будет ограничена отдельной стручкой.
С распределенным кэшированием информация о кэше, согласованная во всех репликах, мы можем использовать распределенные кеш -магазины, такие как Redis.
- Поддержка Redis Distributed Cache
- Поддержка распределенного кэша Memcached
Оценка сходства : этот модуль собирает данные как из хранилища кэша , так и в хранилище вектора и использует различные стратегии для определения сходства между входным запросом и запросами из векторного хранилища . Основываясь на этом сходстве, он определяет, соответствует ли запрос кэш. GPTCache предоставляет стандартизированный интерфейс для интеграции различных стратегий, а также набор реализаций для использования. Следующие определения сходства в настоящее время поддерживаются или будут поддерживаться в будущем:
- Расстояние, которое мы получаем от векторного магазина .
- Основанное на модели сходство, определяемое с использованием модели GPTCache/Albert-Duplicate-Onx из ONNX.
- Точные совпадения между входным запросом и запросами, полученными из векторного хранилища .
- Расстояние, представленное применением linalg.norm от Numpy к встраиванию.
- BM25 и другие измерения сходства.
- Поддержите другую модель, такую как Pytorch.
Примечание . Не все комбинации разных модулей могут быть совместимы друг с другом. Например, если мы отключим экстрактор встраивания , векторный хранилище может не функционировать, как предполагалось. В настоящее время мы работаем над реализацией комбинированной проверки здравомыслия для GPTCache .