Download do GPTCache - Download do código fonte GPTCache

GPTCache

Outro código-fonte

v0.1.44

Baixar

Gptcache: uma biblioteca para criar consultas semânticas para LLM

Slash seu LLM API custa em 10x?, Aumente a velocidade por 100x ⚡

? O GPTCACHE foi totalmente integrado com? ️? Langchain! Aqui estão instruções de uso detalhadas.

? A imagem do Docker do Servidor Gptcache foi lançada, o que significa que qualquer idioma poderá usar o GPTCache!

? Este projeto está passando por um desenvolvimento rápido e, como tal, a API pode estar sujeita a alterações a qualquer momento. Para obter as informações mais atualizadas, consulte a documentação mais recente e a nota de lançamento.

Nota: Como o número de modelos grandes está crescendo explosivamente e sua forma de API está em constante evolução, não adicionamos mais suporte para novas API ou modelos. Incentivamos o uso do uso da API GET e Set em GPTCache, aqui está o código de demonstração: https://github.com/zilliztech/gptcache/blob/main/examples/adapter/api.py

Instalação rápida

pip install gptcache

O que é Gptcache?

O ChatGPT e vários modelos de idiomas grandes (LLMS) possuem versatilidade incrível, permitindo o desenvolvimento de uma ampla gama de aplicações. No entanto, à medida que seu aplicativo cresce em popularidade e encontra níveis mais altos de tráfego, as despesas relacionadas às chamadas da API da LLM podem se tornar substanciais. Além disso, os serviços da LLM podem exibir tempos de resposta lentos, especialmente ao lidar com um número significativo de solicitações.

Para enfrentar esse desafio, criamos o GPTCache, um projeto dedicado a criar um cache semântico para armazenar respostas do LLM.

? Início rápido

Observação :

Você pode experimentar rapidamente o GPTCache e colocá -lo em um ambiente de produção sem desenvolvimento pesado. No entanto, observe que o repositório ainda está sob desenvolvimento pesado.
Por padrão, apenas um número limitado de bibliotecas é instalado para suportar as funcionalidades básicas do cache. Quando você precisar usar recursos adicionais, as bibliotecas relacionadas serão instaladas automaticamente .
Certifique -se de que a versão Python seja 3.8.1 ou superior , verifique: python --version
Se você encontrar problemas de instalação de uma biblioteca devido a uma versão pip baixa, execute: python -m pip install --upgrade pip .

Instalação de dev

 # clone GPTCache repo
git clone -b dev https://github.com/zilliztech/GPTCache.git
cd GPTCache

# install the repo
pip install -r requirements.txt
python setup.py install

exemplo de uso

Esses exemplos ajudarão você a entender como usar a correspondência exata e semelhante com o cache. Você também pode executar o exemplo no COLAB. E mais exemplos que você pode consultar o bootcamp

Antes de executar o exemplo, verifique se a variável de ambiente OpenAI_API_KEY está definida executando echo $OPENAI_API_KEY .

Se ainda não estiver definido, pode ser definido usando export OPENAI_API_KEY=YOUR_API_KEY nos sistemas Unix/Linux/MacOS ou set OPENAI_API_KEY=YOUR_API_KEY nos sistemas Windows.

É importante observar que esse método é efetivo apenas temporariamente; portanto, se você deseja um efeito permanente, precisará modificar o arquivo de configuração da variável de ambiente. Por exemplo, em um Mac, você pode modificar o arquivo localizado em /etc/profile .

Clique para mostrar o código de exemplo

Uso original da API OpenAI

 import os
import time

import openai


def response_text ( openai_resp ):
    return openai_resp [ 'choices' ][ 0 ][ 'message' ][ 'content' ]


question = 'what‘s chatgpt'

# OpenAI API original usage
openai . api_key = os . getenv ( "OPENAI_API_KEY" )
start_time = time . time ()
response = openai . ChatCompletion . create (
  model = 'gpt-3.5-turbo' ,
  messages = [
    {
        'role' : 'user' ,
        'content' : question
    }
  ],
)
print ( f'Question: { question } ' )
print ( "Time consuming: {:.2f}s" . format ( time . time () - start_time ))
print ( f'Answer: { response_text ( response ) } n ' )

OpenAI API + GPTCACHE, Cache exato de correspondência

Se você fizer o ChatGPT exatamente as mesmas duas perguntas, a resposta para a segunda pergunta será obtida no cache sem solicitar o ChatGPT novamente.

 import time


def response_text ( openai_resp ):
    return openai_resp [ 'choices' ][ 0 ][ 'message' ][ 'content' ]

print ( "Cache loading....." )

# To use GPTCache, that's all you need
# -------------------------------------------------
from gptcache import cache
from gptcache . adapter import openai

cache . init ()
cache . set_openai_key ()
# -------------------------------------------------

question = "what's github"
for _ in range ( 2 ):
    start_time = time . time ()
    response = openai . ChatCompletion . create (
      model = 'gpt-3.5-turbo' ,
      messages = [
        {
            'role' : 'user' ,
            'content' : question
        }
      ],
    )
    print ( f'Question: { question } ' )
    print ( "Time consuming: {:.2f}s" . format ( time . time () - start_time ))
    print ( f'Answer: { response_text ( response ) } n ' )

OpenAI API + Gptcache, cache de pesquisa semelhante

Depois de obter uma resposta do ChatGPT em resposta a várias perguntas semelhantes, as respostas às perguntas subsequentes podem ser recuperadas do cache sem a necessidade de solicitar o ChatGPT novamente.

 import time


def response_text ( openai_resp ):
    return openai_resp [ 'choices' ][ 0 ][ 'message' ][ 'content' ]

from gptcache import cache
from gptcache . adapter import openai
from gptcache . embedding import Onnx
from gptcache . manager import CacheBase , VectorBase , get_data_manager
from gptcache . similarity_evaluation . distance import SearchDistanceEvaluation

print ( "Cache loading....." )

onnx = Onnx ()
data_manager = get_data_manager ( CacheBase ( "sqlite" ), VectorBase ( "faiss" , dimension = onnx . dimension ))
cache . init (
    embedding_func = onnx . to_embeddings ,
    data_manager = data_manager ,
    similarity_evaluation = SearchDistanceEvaluation (),
    )
cache . set_openai_key ()

questions = [
    "what's github" ,
    "can you explain what GitHub is" ,
    "can you tell me more about GitHub" ,
    "what is the purpose of GitHub"
]

for question in questions :
    start_time = time . time ()
    response = openai . ChatCompletion . create (
        model = 'gpt-3.5-turbo' ,
        messages = [
            {
                'role' : 'user' ,
                'content' : question
            }
        ],
    )
    print ( f'Question: { question } ' )
    print ( "Time consuming: {:.2f}s" . format ( time . time () - start_time ))
    print ( f'Answer: { response_text ( response ) } n ' )

OpenAI API + GPTCACHE, Use a temperatura

Você sempre pode passar um parâmetro de temperatura enquanto solicita o serviço ou modelo da API.
A faixa de temperature é [0, 2], o valor padrão é 0,0.
Uma temperatura mais alta significa uma possibilidade maior de pular a pesquisa de cache e solicitar um modelo grande diretamente. Quando a temperatura for 2, ele pula o cache e envia uma solicitação para o modelo grande diretamente, com certeza. Quando a temperatura for 0, ele pesquisará o cache antes de solicitar um grande serviço de modelo.
O padrão post_process_messages_func é temperature_softmax . Nesse caso, consulte a referência da API para saber como temperature afeta a saída.

 import time

from gptcache import cache , Config
from gptcache . manager import manager_factory
from gptcache . embedding import Onnx
from gptcache . processor . post import temperature_softmax
from gptcache . similarity_evaluation . distance import SearchDistanceEvaluation
from gptcache . adapter import openai

cache . set_openai_key ()

onnx = Onnx ()
data_manager = manager_factory ( "sqlite,faiss" , vector_params = { "dimension" : onnx . dimension })

cache . init (
    embedding_func = onnx . to_embeddings ,
    data_manager = data_manager ,
    similarity_evaluation = SearchDistanceEvaluation (),
    post_process_messages_func = temperature_softmax
    )
# cache.config = Config(similarity_threshold=0.2)

question = "what's github"

for _ in range ( 3 ):
    start = time . time ()
    response = openai . ChatCompletion . create (
        model = "gpt-3.5-turbo" ,
        temperature = 1.0 ,  # Change temperature here
        messages = [{
            "role" : "user" ,
            "content" : question
        }],
    )
    print ( "Time elapsed:" , round ( time . time () - start , 3 ))
    print ( "Answer:" , response [ "choices" ][ 0 ][ "message" ][ "content" ])

Para usar exclusivamente o GPTCache, apenas as seguintes linhas de código são necessárias e não há necessidade de modificar qualquer código existente.

 from gptcache import cache
from gptcache . adapter import openai

cache . init ()
cache . set_openai_key ()

Mais documentos:

Uso, como usar o gptcache melhor
Recursos, todos os recursos atualmente suportados pelo cache
Exemplos, aprenda melhor cache personalizado
Cache distribuído e escala horizontal

? Bootcamp

Gptcache com Langchain
- Geração de controle de qualidade
- Resposta de perguntas
- Cadeia SQL
- Guia do usuário do babyagi
Gptcache com llama_index
- Página da web QA
Gptcache com o OpenAI
- Conclusão do bate -papo
- Tradução de idiomas
- SQL traduz
- Classificador do Twitter
- Multimodal: geração de imagens
- Multimodal: fala para texto
Gptcache com replicação
- Resposta de perguntas visuais
Gptcache com param de temperatura
- Chat Openai
- Criação de imagem OpenAI

? Com o que isso pode ajudar?

O GPTCache oferece os seguintes benefícios primários:

Despesas reduzidas : A maioria dos serviços LLM cobra taxas com base em uma combinação de número de solicitações e contagem de token. O GPTCache minimiza efetivamente suas despesas, em cache, os resultados da consulta, o que, por sua vez, reduz o número de solicitações e tokens enviados ao serviço LLM. Como resultado, você pode desfrutar de uma experiência mais econômica ao usar o serviço.
Desempenho aprimorado : os LLMs empregam algoritmos generativos de IA para gerar respostas em tempo real, um processo que às vezes pode ser demorado. No entanto, quando uma consulta semelhante é armazenada em cache, o tempo de resposta melhora significativamente, pois o resultado é buscado diretamente do cache, eliminando a necessidade de interagir com o serviço LLM. Na maioria das situações, o GPTCache também pode fornecer taxa de transferência de consulta superior em comparação com os serviços LLM padrão.
Ambiente de desenvolvimento e teste adaptável : como desenvolvedor que trabalha em aplicativos LLM, você está ciente de que a conexão com APIs LLM é geralmente necessária e o teste abrangente do seu aplicativo é crucial antes de movê -lo para um ambiente de produção. O GPTCache fornece uma interface que reflete as APIs LLM e acomoda o armazenamento de dados zombados e gerados por LLM. Esse recurso permite desenvolver e testar sem esforço seu aplicativo, eliminando a necessidade de se conectar ao serviço LLM.
Escalabilidade e disponibilidade aprimoradas : os serviços LLM frequentemente aplicam limites de taxa, que são restrições que as APIs colocam no número de vezes que um usuário ou cliente pode acessar o servidor dentro de um determinado prazo. Atingir um limite de taxa significa que solicitações adicionais serão bloqueadas até que um certo período tenha decorrido, levando a uma interrupção do serviço. Com o GPTCache, você pode facilmente escalar para acomodar um volume crescente de consultas, garantindo o desempenho consistente à medida que a base de usuários do seu aplicativo se expanda.

? Como funciona?

Os serviços on -line geralmente exibem localidade de dados, com os usuários acessar frequentemente o conteúdo popular ou de tendências. Os sistemas de cache aproveitam esse comportamento armazenando dados comumente acessados, o que, por sua vez, reduz o tempo de recuperação de dados, melhora os tempos de resposta e facilita a carga nos servidores de back -end. Os sistemas de cache tradicionais normalmente utilizam uma correspondência exata entre uma nova consulta e uma consulta em cache para determinar se o conteúdo solicitado está disponível no cache antes de buscar os dados.

No entanto, o uso de uma abordagem de correspondência exata para caches LLM é menos eficaz devido à complexidade e variabilidade das consultas LLM, resultando em uma baixa taxa de acerto de cache. Para resolver esse problema, o GPTCache adota estratégias alternativas, como o cache semântico. O cache semântico identifica e armazena consultas semelhantes ou relacionadas, aumentando assim a probabilidade de atingimento de cache e aumentando a eficiência geral do cache.

A GPTCache emprega algoritmos de incorporação para converter consultas em incorporação e usa uma loja de vetores para pesquisa de similaridade nessas incorporações. Esse processo permite que o GPTCache identifique e recupere consultas semelhantes ou relacionadas do armazenamento de cache, conforme ilustrado na seção Módulos.

Apresentando um design modular, o GPTCache facilita para os usuários personalizar seu próprio cache semântico. O sistema oferece várias implementações para cada módulo, e os usuários podem até desenvolver suas próprias implementações para atender às suas necessidades específicas.

Em um cache semântico, você pode encontrar falsos positivos durante hits de cache e falsos negativos durante as perdas do cache. A GPTCache oferece três métricas para avaliar seu desempenho, que são úteis para os desenvolvedores otimizarem seus sistemas de cache:

Razão de acerto : isso quantifica a capacidade do cache de atender às solicitações de conteúdo com sucesso, em comparação com o número total de solicitações que recebe. Uma taxa de acerto mais alta indica um cache mais eficaz.
Latência : essa métrica mede o tempo necessário para uma consulta a ser processada e os dados correspondentes a serem recuperados do cache. A latência menor significa um sistema de cache mais eficiente e responsivo.
Lembre -se : essa métrica representa a proporção de consultas servidas pelo cache fora do número total de consultas que deveriam ter sido atendidas pelo cache. Porcentagens de recall mais altas indicam que o cache está efetivamente atendendo ao conteúdo apropriado.

Um benchmark de amostra está incluído para os usuários começarem a avaliar o desempenho de seu cache semântico.

? Módulos

GPTCACHACH STRUT

Adaptador LLM : O adaptador LLM foi projetado para integrar diferentes modelos LLM, unificando suas APIs e solicitando protocolos. O GPTCache oferece uma interface padronizada para esse fim, com suporte atual para a integração do ChatGPT.
- Apoie a API do OpenAi ChatGPT.
- Apoie Langchain.
- Suporte Minigpt4.
- Apoie Llamacpp.
- Apoie Dolly.
- Apoie outros LLMs, como abraçar hub de rosto, bardo, antropic.
Adaptador multimodal (experimental) : O adaptador multimodal foi projetado para integrar diferentes modelos multimodais diferentes, unificando suas APIs e solicitando protocolos. O GPTCache oferece uma interface padronizada para esse fim, com suporte atual para integrações de geração de imagens, transcrição de áudio.
- Suporte a imagem OpenAi Criar API.
- Suporte API de transcrição de áudio OpenAI.
- Suporte API do BLIP replicado.
- Suporte API de inferência de estabilidade.
- Apoie o abraço de difusão estável para o rosto (inferência local).
- Apoie outros serviços multimodais ou grandes modelos multimodais auto-hospedados.
Gerador de incorporação : Este módulo é criado para extrair incorporações de solicitações de pesquisa de similaridade. O GPTCache oferece uma interface genérica que suporta várias APIs de incorporação e apresenta uma variedade de soluções para escolher.
- Desativar a incorporação. Isso transformará o GPTCache em um cache de correspondência de palavras-chave.
- Apoie a API de incorporação do OpenAI.
- Suporte ONNX com o modelo GPTCACHE/Parafrase-Albert-NONX.
- Apoie o Hugging Face incorporado com Transformers, Vitmodel, Data2Vecaudio.
- Suporte coere a API de incorporação.
- Apoie a incorporação rápida do texto rápido.
- Apoie a incorporação de Sentencetransformers.
- Apoie os modelos Timm para incorporação de imagem.
- Apoie outras APIs de incorporação.
Armazenamento de cache : o armazenamento de cache é onde a resposta do LLMS, como o ChatGPT, é armazenada. As respostas em cache são recuperadas para ajudar na avaliação da similaridade e são devolvidas ao solicitante se houver uma boa correspondência semântica. Atualmente, o GPTCache suporta o SQLite e oferece uma interface universalmente acessível para extensão deste módulo.
- Apoie Sqlite.
- Apoie DuckDB.
- Apoie PostGresql.
- Apoie MySQL.
- Apoie MariaDB.
- Suporte SQL Server.
- Apoie o Oracle.
- Suporte DynamoDB.
- Apoie MongoDB.
- Apoie Redis.
- Apoie Minio.
- Apoie Hbase.
- Suporte Elasticsearch.
- Apoie outros armazenamentos.
Vector Store : O módulo Vector Store ajuda a encontrar as solicitações mais semelhantes da incorporação extraída da solicitação de entrada. Os resultados podem ajudar a avaliar a semelhança. O GPTCache fornece uma interface amigável que suporta várias lojas de vetores, incluindo Milvus, Zilliz Cloud e FAISS. Mais opções estarão disponíveis no futuro.
- Apoie a Milvus, um banco de dados vetorial de código aberto para aplicações de AI/LLM prontas para produção.
- Suporte a Zilliz Cloud, um banco de dados vetorial em nuvem totalmente gerenciado com base no MILVUS.
- Apoie a Milvus Lite, uma versão leve do Milvus que pode ser incorporada ao seu aplicativo Python.
- Apoie a FAISS, uma biblioteca para busca eficiente de similaridade e agrupamento de vetores densos.
- Apoie HNSWLIB, biblioteca C ++/Python somente para cabeçalho para os vizinhos mais próximos mais próximos.
- Apoie PGVector, pesquisa de similaridade vetorial de código aberto Postgres.
- Apoie Chroma, o banco de dados de incorporação de código aberto da IA.
- Apoie DocArray, DocArray é uma biblioteca para representar, enviar e armazenar dados multimodais, perfeitos para aplicativos de aprendizado de máquina.
- Suporte QDRANT
- Apoie WEAVIATE
- Apoie outros bancos de dados vetoriais.
Cache Manager : O Cache Manager é responsável por controlar a operação do armazenamento de cache e do Vector Store .
- Política de despejo : O despejo de cache pode ser gerenciado na memória usando cachetools do Python ou de maneira distribuída usando o Redis como uma loja de valores-chave.
- Cache na memória
Atualmente, o GPTCache toma decisões sobre despejos baseados apenas no número de linhas. Essa abordagem pode resultar em avaliação imprecisa de recursos e pode causar erros de fora da memória (OOM). Estamos investigando e desenvolvendo ativamente uma estratégia mais sofisticada.
- Apoie a política de despejo da LRU.
- Apoie a política de despejo da FIFO.
- Apoie a política de despejo da LFU.
- Apoie a política de despejo de RR.
- Apoiar políticas de despejo mais complicadas.
- Cache distribuído
Se você escalar sua implantação do GPTCACHE em horizontalmente usando o cache de memória, não será possível. Como as informações em cache seriam limitadas ao único pod.
Com o cache distribuído, as informações de cache consistentes em todas as réplicas que podemos usar lojas de cache distribuídas como o Redis.
- Apoie o cache distribuído Redis
- Apoie o cache distribuído de Memcached
Avaliador de similaridade : Este módulo coleta dados do armazenamento de cache e do Vector Store e usa várias estratégias para determinar a semelhança entre a solicitação de entrada e as solicitações do Vector Store . Com base nessa semelhança, ele determina se uma solicitação corresponde ao cache. O GPTCache fornece uma interface padronizada para integrar várias estratégias, juntamente com uma coleção de implementações para usar. As definições de similaridade a seguir são apoiadas atualmente ou serão suportadas no futuro:
- A distância que obtemos da loja de vetores .
- Uma similaridade baseada em modelo determinada usando o modelo GPTCACHE/Albert-Duplicate-NX da ONNX.
- Correspondências exatas entre a solicitação de entrada e as solicitações obtidas no Vector Store .
- Distância representada aplicando linalg.norm de Numpy às incorporações.
- BM25 e outras medições de similaridade.
- Apoie outra estrutura de servir de modelo, como o Pytorch.
Nota : Nem todas as combinações de diferentes módulos podem ser compatíveis entre si. Por exemplo, se desativarmos o extrator de incorporação , o Vector Store poderá não funcionar como pretendido. No momento, estamos trabalhando na implementação de uma verificação de sanidade combinada para o GPTCACHACH .