GPTCache 다운로드 GPTCache 소스 코드 다운로드

GPTCache

기타 소스코드

v0.1.44

다운로드

GPTCACHE : LLM 쿼리를위한 시맨틱 캐시 생성 라이브러리

LLM API 비용을 10 배나 10 배, 속도를 100x로 슬래시하십시오.

? GPTCACHE는? ️? langchain과 완전히 통합되었습니다! 자세한 사용 지침은 다음과 같습니다.

? GPTCACHE Server Docker Image가 릴리스되었으므로 모든 언어가 GPTCache를 사용할 수 있습니다!

? 이 프로젝트는 신속한 개발을 진행하고 있으며, 따라서 API는 언제든지 변경 될 수 있습니다. 최신 정보는 최신 문서 및 릴리스 노트를 참조하십시오.

참고 : 대형 모델의 수가 폭발적으로 증가하고 API 모양이 지속적으로 발전하고 있기 때문에 더 이상 새로운 API 또는 모델에 대한 지원을 추가하지 않습니다. GPTCACHE에서 Get and Set API를 사용하는 것을 권장합니다. 여기에 데모 코드가 있습니다 : https://github.com/zilliztech/gptcache/blob/main/examples/adapter/api.py

빠른 설치

pip install gptcache

gptcache 란 무엇입니까?

Chatgpt 및 다양한 대형 언어 모델 (LLM)은 놀라운 다목적 성을 자랑하여 광범위한 응용 프로그램의 개발을 가능하게합니다. 그러나 응용 프로그램이 인기를 얻고 트래픽 수준이 높아짐에 따라 LLM API 통화와 관련된 비용이 상당해질 수 있습니다. 또한 LLM 서비스는 특히 상당한 수의 요청을 처리 할 때 느린 응답 시간을 나타낼 수 있습니다.

이 도전을 해결하기 위해 LLM 응답을 저장하기위한 시맨틱 캐시를 구축하는 데 전념하는 프로젝트 인 GPTCACHE를 만들었습니다.

? 빠른 시작

메모 :

당신은 gptcache를 신속하게 시도하고 강력한 개발없이 생산 환경에 넣을 수 있습니다. 그러나 저장소는 여전히 큰 발전을 받고 있습니다.
기본적으로 기본 캐시 기능을 지원하기 위해 제한된 수의 라이브러리 만 설치됩니다. 추가 기능을 사용해야하면 관련 라이브러리가 자동으로 설치 됩니다.
Python 버전이 3.8.1 이상 인지 확인하십시오. python --version 확인하십시오.
낮은 PIP 버전으로 인해 라이브러리를 설치하는 데 문제가 발생하면 실행 : python -m pip install --upgrade pip .

DEV 설치

 # clone GPTCache repo
git clone -b dev https://github.com/zilliztech/GPTCache.git
cd GPTCache

# install the repo
pip install -r requirements.txt
python setup.py install

예제 사용

이 예는 정확하고 유사한 일치하는 캐싱과 일치하는 방법을 이해하는 데 도움이됩니다. Colab에서 예제를 실행할 수도 있습니다. 그리고 더 많은 예제는 부트 캠프를 참조 할 수 있습니다

예제를 실행하기 전에 echo $OPENAI_API_KEY 실행하여 OpenAI_API_KEY 환경 변수가 설정되어 있는지 확인하십시오 .

아직 설정되지 않은 경우 Unix/Linux/MacOS 시스템에서 export OPENAI_API_KEY=YOUR_API_KEY 사용하거나 Windows 시스템에서 set OPENAI_API_KEY=YOUR_API_KEY 설정할 수 있습니다.

이 방법은 일시적으로 만 효과적이므로 영구적 인 효과를 원한다면 환경 변수 구성 파일을 수정해야합니다. 예를 들어, Mac에서는 /etc/profile 에있는 파일을 수정할 수 있습니다.

예제 코드를 표시 하려면 클릭하십시오

Openai API 원래 사용

 import os
import time

import openai


def response_text ( openai_resp ):
    return openai_resp [ 'choices' ][ 0 ][ 'message' ][ 'content' ]


question = 'what‘s chatgpt'

# OpenAI API original usage
openai . api_key = os . getenv ( "OPENAI_API_KEY" )
start_time = time . time ()
response = openai . ChatCompletion . create (
  model = 'gpt-3.5-turbo' ,
  messages = [
    {
        'role' : 'user' ,
        'content' : question
    }
  ],
)
print ( f'Question: { question } ' )
print ( "Time consuming: {:.2f}s" . format ( time . time () - start_time ))
print ( f'Answer: { response_text ( response ) } n ' )

Openai API + GPTCACHE, 정확한 일치 캐시

chatgpt에 똑같은 두 가지 질문을 묻는 경우, 두 번째 질문에 대한 답변은 Chatgpt를 다시 요청하지 않고 캐시에서 얻을 것입니다.

 import time


def response_text ( openai_resp ):
    return openai_resp [ 'choices' ][ 0 ][ 'message' ][ 'content' ]

print ( "Cache loading....." )

# To use GPTCache, that's all you need
# -------------------------------------------------
from gptcache import cache
from gptcache . adapter import openai

cache . init ()
cache . set_openai_key ()
# -------------------------------------------------

question = "what's github"
for _ in range ( 2 ):
    start_time = time . time ()
    response = openai . ChatCompletion . create (
      model = 'gpt-3.5-turbo' ,
      messages = [
        {
            'role' : 'user' ,
            'content' : question
        }
      ],
    )
    print ( f'Question: { question } ' )
    print ( "Time consuming: {:.2f}s" . format ( time . time () - start_time ))
    print ( f'Answer: { response_text ( response ) } n ' )

Openai API + GPTCACHE, 유사한 검색 캐시

몇 가지 유사한 질문에 대한 응답으로 Chatgpt로부터 답을 얻은 후, 후속 질문에 대한 답변은 ChatGpt를 다시 요청하지 않고도 캐시에서 검색 할 수 있습니다.

 import time


def response_text ( openai_resp ):
    return openai_resp [ 'choices' ][ 0 ][ 'message' ][ 'content' ]

from gptcache import cache
from gptcache . adapter import openai
from gptcache . embedding import Onnx
from gptcache . manager import CacheBase , VectorBase , get_data_manager
from gptcache . similarity_evaluation . distance import SearchDistanceEvaluation

print ( "Cache loading....." )

onnx = Onnx ()
data_manager = get_data_manager ( CacheBase ( "sqlite" ), VectorBase ( "faiss" , dimension = onnx . dimension ))
cache . init (
    embedding_func = onnx . to_embeddings ,
    data_manager = data_manager ,
    similarity_evaluation = SearchDistanceEvaluation (),
    )
cache . set_openai_key ()

questions = [
    "what's github" ,
    "can you explain what GitHub is" ,
    "can you tell me more about GitHub" ,
    "what is the purpose of GitHub"
]

for question in questions :
    start_time = time . time ()
    response = openai . ChatCompletion . create (
        model = 'gpt-3.5-turbo' ,
        messages = [
            {
                'role' : 'user' ,
                'content' : question
            }
        ],
    )
    print ( f'Question: { question } ' )
    print ( "Time consuming: {:.2f}s" . format ( time . time () - start_time ))
    print ( f'Answer: { response_text ( response ) } n ' )

Openai API + GPTCACHE, 온도를 사용하십시오

API 서비스 또는 모델을 요청하는 동안 언제든지 온도 매개 변수를 전달할 수 있습니다.
temperature 범위는 [0, 2]이고 기본값은 0.0입니다.
온도가 높을수록 캐시 검색을 건너 뛰고 대형 모델을 직접 요청할 가능성이 높아집니다. 온도가 2 인 경우 캐시를 건너 뛰고 요청을 대형 모델로 직접 보냅니다. 온도가 0 인 경우 큰 모델 서비스를 요청하기 전에 캐시를 검색합니다.
Default post_process_messages_func 은 temperature_softmax 입니다. 이 경우 temperature 출력에 어떤 영향을 미치는지 알아 보려면 API 참조를 참조하십시오.

 import time

from gptcache import cache , Config
from gptcache . manager import manager_factory
from gptcache . embedding import Onnx
from gptcache . processor . post import temperature_softmax
from gptcache . similarity_evaluation . distance import SearchDistanceEvaluation
from gptcache . adapter import openai

cache . set_openai_key ()

onnx = Onnx ()
data_manager = manager_factory ( "sqlite,faiss" , vector_params = { "dimension" : onnx . dimension })

cache . init (
    embedding_func = onnx . to_embeddings ,
    data_manager = data_manager ,
    similarity_evaluation = SearchDistanceEvaluation (),
    post_process_messages_func = temperature_softmax
    )
# cache.config = Config(similarity_threshold=0.2)

question = "what's github"

for _ in range ( 3 ):
    start = time . time ()
    response = openai . ChatCompletion . create (
        model = "gpt-3.5-turbo" ,
        temperature = 1.0 ,  # Change temperature here
        messages = [{
            "role" : "user" ,
            "content" : question
        }],
    )
    print ( "Time elapsed:" , round ( time . time () - start , 3 ))
    print ( "Answer:" , response [ "choices" ][ 0 ][ "message" ][ "content" ])

GPTCache를 독점적으로 사용하려면 다음 줄의 코드 만 필요하며 기존 코드를 수정할 필요가 없습니다.

 from gptcache import cache
from gptcache . adapter import openai

cache . init ()
cache . set_openai_key ()

더 많은 문서 ：

사용법, gptcache를 더 잘 사용하는 방법
기능, 현재 캐시에서 지원되는 모든 기능
예, 더 나은 커스텀 캐싱을 배우십시오
배포 된 캐싱 및 수평 스케일링

? 부트 캠프

Langchain 과 함께 gptcache
- QA 세대
- 질문 대답
- SQL 체인
- babyagi 사용자 안내서
llama_index 가있는 gptcache
- 웹 페이지 QA
Openai 가있는 gptcache
- 채팅 완료
- 언어 번역
- SQL 번역
- 트위터 분류기
- 멀티 모달 : 이미지 생성
- 멀티 모달 : 텍스트로의 음성
복제 된 gptcache
- 시각적 질문 답변
온도 매개 변수 가있는 gptcache
- Openai 채팅
- Openai 이미지 생성

? 이것이 무엇에 도움이 될 수 있습니까?

GPTCache는 다음과 같은 주요 이점을 제공합니다.

비용 감소 : 대부분의 LLM 서비스는 요청 수와 토큰 수의 조합을 기반으로 요금을 청구합니다. GPTCache는 쿼리 결과를 캐싱하여 비용을 효과적으로 최소화하여 LLM 서비스로 전송 된 요청 및 토큰 수가 줄어 듭니다. 결과적으로 서비스를 사용할 때보다 비용 효율적인 경험을 즐길 수 있습니다.
성능 향상 : LLM은 생성 AI 알고리즘을 사용하여 때때로 시간이 소요될 수있는 프로세스 인 실시간으로 응답을 생성합니다. 그러나 비슷한 쿼리가 캐시되면 응답 시간이 캐시에서 직접 가져 오면 LLM 서비스와 상호 작용할 필요가 없으므로 응답 시간이 크게 향상됩니다. 대부분의 상황에서 GPTCache는 표준 LLM 서비스에 비해 우수한 쿼리 처리량을 제공 할 수 있습니다.
적응 가능한 개발 및 테스트 환경 : LLM 애플리케이션에서 작업하는 개발자로서 LLM API에 연결하는 것이 일반적으로 필요하다는 것을 알고 있으며, 제작 환경으로 이동하기 전에 응용 프로그램에 대한 포괄적 인 테스트가 중요합니다. GPTCACHE는 LLM API를 반영하고 LLM 생성 및 조롱 된 데이터의 저장을 수용하는 인터페이스를 제공합니다. 이 기능을 사용하면 응용 프로그램을 쉽게 개발하고 테스트하여 LLM 서비스에 연결할 필요가 없습니다.
확장 성 및 가용성 향상 : LLM 서비스는 종종 요금 제한을 시행하는데, 이는 API가 사용자 나 클라이언트가 주어진 시간 내에 서버에 액세스 할 수있는 횟수에 대한 제약 조건입니다. 요금 제한을 누르면 특정 기간이 경과 할 때까지 추가 요청이 차단되어 서비스 중단이 발생합니다. GPTCACHE를 사용하면 증가하는 양의 쿼리를 수용 할 수 있도록 쉽게 확장 할 수있어 응용 프로그램의 사용자 기반이 확장됨에 따라 일관된 성능을 보장합니다.

? 어떻게 작동합니까?

온라인 서비스는 종종 데이터 지역을 나타냅니다. 캐시 시스템은 일반적으로 액세스하는 데이터를 저장 하여이 동작을 활용하여 데이터 검색 시간을 줄이고 응답 시간을 개선하며 백엔드 서버의 부담을 완화시킵니다. 기존 캐시 시스템은 일반적으로 새 쿼리와 캐시 된 쿼리 간의 정확한 일치를 사용하여 데이터를 가져 오기 전에 요청 된 컨텐츠를 캐시에서 사용할 수 있는지 확인합니다.

그러나 LLM 캐시에 정확한 일치 접근 방식을 사용하는 것은 LLM 쿼리의 복잡성과 변동성으로 인해 덜 효과적이므로 캐시 적중률이 낮습니다. 이 문제를 해결하기 위해 GPTCACHE는 시맨틱 캐싱과 같은 대체 전략을 채택합니다. 시맨틱 캐싱은 유사하거나 관련 쿼리를 식별하고 저장하여 캐시 적중 확률을 높이고 전체 캐싱 효율을 향상시킵니다.

GPTCACHE는 임베딩 알고리즘을 사용하여 쿼리를 임베딩으로 변환하고 이러한 임베딩에서 유사성 검색을 위해 벡터 저장소를 사용합니다. 이 프로세스를 통해 GPTCache는 모듈 섹션에 표시된 것처럼 캐시 스토리지에서 유사하거나 관련 쿼리를 식별하고 검색 할 수 있습니다.

모듈 식 디자인을 특징으로하는 GPTCache는 사용자가 자신의 시맨틱 캐시를 쉽게 사용자 정의 할 수 있습니다. 이 시스템은 각 모듈에 대한 다양한 구현을 제공하며 사용자는 특정 요구에 맞게 자체 구현을 개발할 수도 있습니다.

시맨틱 캐시에서는 캐시 히트 중에 오 탐지와 캐시 미스 중에 잘못된 부정을 만날 수 있습니다. GPTCACHE는 성능을 측정하기위한 세 가지 메트릭을 제공하며 개발자가 캐싱 시스템을 최적화하는 데 도움이됩니다.

적중률 :이 메트릭은 수신 한 총 요청 수와 비교하여 캐시의 컨텐츠 요청을 성공적으로 이행하는 능력을 정량화합니다. 히트 비율이 높을수록 더 효과적인 캐시가 나타납니다.
대기 시간 :이 메트릭은 쿼리를 처리하는 데 걸리는 시간과 캐시에서 해당 데이터를 검색 할 시간을 측정합니다. 낮은 대기 시간은보다 효율적이고 반응 형 캐싱 시스템을 나타냅니다.
리콜 :이 메트릭은 캐시가 제공 해야하는 총 쿼리 수에서 캐시에서 제공하는 쿼리의 비율을 나타냅니다. 리콜 백분율이 높을수록 캐시가 적절한 컨텐츠를 효과적으로 제공하고 있음을 나타냅니다.

사용자가 시맨틱 캐시의 성능을 평가하는 것으로 시작할 수있는 샘플 벤치 마크가 포함되어 있습니다.

? 모듈

gptcache struct

LLM 어댑터 : LLM 어댑터는 API 및 요청 프로토콜을 통합하여 다른 LLM 모델을 통합하도록 설계되었습니다. GPTCACHE는이 목적을위한 표준화 된 인터페이스를 제공하며 ChatGpt 통합을위한 현재 지원을 제공합니다.
- OpenAI ChatGpt API를 지원합니다.
- Langchain을 지원하십시오.
- MINIGPT4 지원.
- llamacpp를 지원하십시오.
- Dolly를 지원하십시오.
- Hugging Face Hub, Bard, Anthropic과 같은 다른 LLM을 지원하십시오.
멀티 모달 어댑터 (실험) : 멀티 모달 어댑터는 API 및 요청 프로토콜을 통합하여 다른 대형 멀티 모달 모델을 통합하도록 설계되었습니다. GPTCACHE는이 목적을위한 표준화 된 인터페이스를 제공하며 이미지 생성, 오디오 전사의 통합을 지원합니다.
- OpenAI 이미지 지원 API를 작성하십시오.
- OpenAI 오디오 전사 API를 지원하십시오.
- 지원 복제 블립 API.
- 안정성 추론 API를 지원합니다.
- 포옹 얼굴 안정된 확산 파이프 라인 (로컬 추론)을 지원합니다.
- 다른 멀티 모드 서비스 또는 자체 호스팅 된 대형 멀티 모드 모델을 지원합니다.
삽입 생성기 :이 모듈은 유사성 검색 요청에서 내장을 추출하도록 만들어졌습니다. GPTCACHE는 다중 임베딩 API를 지원하는 일반적인 인터페이스를 제공하며 선택할 수있는 다양한 솔루션을 제공합니다.
- 임베딩을 비활성화합니다. 이렇게하면 gptcache를 키워드 매칭 캐시로 전환합니다.
- OpenAI 임베딩 API를 지원합니다.
- GPTCACHE/PARAPHRASE-ALBERT-ONNX 모델로 ONNX를 지원합니다.
- 트랜스포머, vitmodel, data2vecaudio와 함께 포옹 얼굴 임베딩을 지원하십시오.
- Cohere Embedding API를 지원합니다.
- FastText Embedding을 지원합니다.
- Sentencetransformers 임베딩 지원.
- 이미지 임베딩을위한 TIMM 모델을 지원합니다.
- 다른 임베딩 API를 지원하십시오.
캐시 스토리지 : 캐시 스토리지는 ChatGpt와 같은 LLM의 응답이 저장되는 곳입니다. 캐시 된 응답은 유사성 평가를 돕기 위해 검색되며 의미 론적 일치가 있으면 요청자에게 반환됩니다. 현재 GPTCache는 SQLITE를 지원 하고이 모듈의 확장에 대한 보편적으로 액세스 가능한 인터페이스를 제공합니다.
- sqlite를 지원합니다.
- DuckDB를 지원합니다.
- PostgreSQL을 지원합니다.
- MySQL 지원.
- MariaDB를 지원하십시오.
- SQL Server를 지원합니다.
- 오라클을 지원합니다.
- DynamODB를 지원합니다.
- MongoDB를 지원하십시오.
- Redis를 지원합니다.
- Minio를 지원합니다.
- HBase를 지원합니다.
- Elasticsearch를 지원합니다.
- 다른 Storages를 지원합니다.
벡터 스토어 : 벡터 스토어 모듈은 입력 요청의 추출 된 임베딩에서 가장 유사한 요청을 찾는 데 도움이됩니다. 결과는 유사성을 평가하는 데 도움이 될 수 있습니다. GPTCache는 Milvus, Zilliz Cloud 및 Faiss를 포함한 다양한 벡터 매장을 지원하는 사용자 친화적 인 인터페이스를 제공합니다. 앞으로 더 많은 옵션을 사용할 수 있습니다.
- 생산 준비 AI/LLM 응용 프로그램을위한 오픈 소스 벡터 데이터베이스 인 Milvus를 지원합니다.
- Milvus를 기반으로 완전 관리되는 클라우드 벡터 데이터베이스 인 Zilliz Cloud를 지원합니다.
- Python 응용 프로그램에 포함시킬 수있는 가벼운 버전의 Milvus 인 Milvus Lite를 지원하십시오.
- 밀도가 높은 벡터의 효율적인 유사성 검색 및 클러스터링을위한 라이브러리 인 Faiss를 지원합니다.
- 가장 가까운 가장 가까운 이웃을 위해 헤더 전용 C ++/Python 라이브러리, HNSWLIB를 지원하십시오.
- PGVECTOR, Open-Source 벡터 유사성 Postgres에 대한 지원.
- AI-Native Open-Source Embedding 데이터베이스 인 Chroma를 지원합니다.
- DocArray를 지원하는 Docarray는 머신 러닝 응용 프로그램에 적합한 다중 모달 데이터를 표현, 전송 및 저장하기위한 라이브러리입니다.
- qdrant를 지원하십시오
- weaviate를 지원하십시오
- 다른 벡터 데이터베이스를 지원합니다.
캐시 관리자 : 캐시 관리자는 캐시 스토리지 및 벡터 스토어 의 작동을 제어 할 책임이 있습니다.
- 퇴거 정책 : 캐시 퇴거는 Python의 cachetools 사용하여 메모리에서 또는 Redis를 키 값 저장소로 사용하여 분산 방식으로 관리 할 수 있습니다.
- 메모리 캐싱
현재 GPTCACHE는 라인 수만 기반으로 퇴거에 대한 결정을 내립니다. 이 접근법은 부정확 한 리소스 평가를 초래할 수 있으며 메모리 외 (OOM) 오류가 발생할 수 있습니다. 우리는보다 정교한 전략을 적극적으로 조사하고 개발하고 있습니다.
- LRU 퇴거 정책을 지원합니다.
- FIFO 퇴거 정책을 지원합니다.
- LFU 퇴거 정책을 지원합니다.
- RR 퇴거 정책을 지원합니다.
- 더 복잡한 퇴거 정책을 지원합니다.
- 분산 캐싱
메모리 인 캐싱을 사용하여 GPTCACHE 배포를 가로로 확장하려면 가능하지 않습니다. 캐시 된 정보는 단일 포드로 제한되기 때문에.
분산 된 캐싱을 사용하면 모든 복제본에서 일관된 캐시 정보를 일관되게 캐시합니다. Redis와 같은 분산 캐시 스토어를 사용할 수 있습니다.
- Redis 분산 캐시를 지원합니다
- MemCached Distributed Cache를 지원합니다
유사성 평가자 :이 모듈은 캐시 스토리지 및 벡터 스토어 에서 데이터를 수집하고 다양한 전략을 사용하여 입력 요청과 벡터 스토어 의 요청 간의 유사성을 결정합니다. 이러한 유사성을 기반으로 요청이 캐시와 일치하는지 여부를 결정합니다. GPTCACHE는 다양한 전략을 통합하기위한 표준화 된 인터페이스와 사용할 구현 모음을 제공합니다. 다음 유사성 정의는 현재 지원되거나 향후 지원됩니다.
- 벡터 스토어 에서 얻은 거리.
- ONNX의 GPTCACHE/Albert-Duplice-Onnx 모델을 사용하여 결정된 모델 기반 유사성.
- 입력 요청과 벡터 스토어 에서 얻은 요청간에 정확히 일치합니다.
- Numpy에서 삽입까지 Linalg.norm을 적용하여 표현되는 거리.
- BM25 및 기타 유사성 측정.
- Pytorch와 같은 다른 모델 서빙 프레임 워크를 지원합니다.
참고 : 다른 모듈의 모든 조합이 서로 호환되는 것은 아닙니다. 예를 들어, 임베딩 추출기를 비활성화하면 벡터 스토어가 의도 한대로 작동하지 않을 수 있습니다. 우리는 현재 GPTCACHE 에 대한 Combinity Sanity Check를 구현하기 위해 노력하고 있습니다.