Unduh GPTCache - Unduh Kode Sumber GPTCache

GPTCache

Kode sumber lainnya

v0.1.44

Unduh

GPTCACHE: Perpustakaan untuk membuat cache semantik untuk kueri LLM

Slash LLM API Anda Biaya dengan 10x ?, Boost Speed dengan 100x ⚡

? GptCache telah sepenuhnya terintegrasi dengan? ️? Langchain! Berikut adalah instruksi penggunaan yang terperinci.

? Gambar GptCache Server Docker telah dirilis, yang berarti bahwa bahasa apa pun akan dapat menggunakan GPTCACHE!

? Proyek ini sedang mengalami pengembangan cepat, dan dengan demikian, API dapat berubah kapan saja. Untuk informasi terbaru, silakan merujuk ke dokumentasi terbaru dan catatan rilis.

CATATAN: Karena jumlah model besar tumbuh secara eksplosif dan bentuk API mereka terus berkembang, kami tidak lagi menambahkan dukungan untuk API atau model baru. Kami mendorong penggunaan menggunakan API Get and Set di GptCache, berikut adalah kode demo: https://github.com/zilliztech/gptcache/blob/main/examples/adapter/api.py

Instalasi cepat

pip install gptcache

Apa itu GPTCACHE?

ChatGPT dan berbagai model bahasa besar (LLM) memiliki keserbagunaan yang luar biasa, memungkinkan pengembangan berbagai aplikasi. Namun, ketika aplikasi Anda semakin populer dan menemukan tingkat lalu lintas yang lebih tinggi, biaya yang terkait dengan panggilan API LLM dapat menjadi substansial. Selain itu, layanan LLM mungkin menunjukkan waktu respons yang lambat, terutama ketika berhadapan dengan sejumlah besar permintaan.

Untuk mengatasi tantangan ini, kami telah membuat GPTCACHE, sebuah proyek yang didedikasikan untuk membangun cache semantik untuk menyimpan tanggapan LLM.

? Awal yang cepat

Catatan :

Anda dapat dengan cepat mencoba GPTCACHE dan memasukkannya ke lingkungan produksi tanpa pengembangan berat. Namun, harap dicatat bahwa repositori masih dalam pengembangan besar.
Secara default, hanya sejumlah pustaka yang diinstal untuk mendukung fungsionalitas cache dasar. Ketika Anda perlu menggunakan fitur tambahan, pustaka terkait akan diinstal secara otomatis .
Pastikan bahwa versi Python adalah 3.8.1 atau lebih tinggi , periksa: python --version
Jika Anda mengalami masalah menginstal perpustakaan karena versi PIP yang rendah, jalankan: python -m pip install --upgrade pip .

instalasi dev

 # clone GPTCache repo
git clone -b dev https://github.com/zilliztech/GPTCache.git
cd GPTCache

# install the repo
pip install -r requirements.txt
python setup.py install

Contoh penggunaan

Contoh -contoh ini akan membantu Anda memahami cara menggunakan pencocokan yang tepat dan serupa dengan caching. Anda juga dapat menjalankan contoh di Colab. Dan lebih banyak contoh Anda dapat merujuk ke bootcamp

Sebelum menjalankan contoh, pastikan variabel lingkungan openai_api_key ditetapkan dengan mengeksekusi echo $OPENAI_API_KEY .

Jika belum diatur, itu dapat diatur dengan menggunakan export OPENAI_API_KEY=YOUR_API_KEY di sistem UNIX/Linux/MacOS atau set OPENAI_API_KEY=YOUR_API_KEY pada sistem Windows.

Penting untuk dicatat bahwa metode ini hanya efektif sementara, jadi jika Anda menginginkan efek permanen, Anda harus memodifikasi file konfigurasi variabel lingkungan. Misalnya, pada Mac, Anda dapat memodifikasi file yang terletak di /etc/profile .

Klik untuk menampilkan contoh kode

Openai API Penggunaan Asli

 import os
import time

import openai


def response_text ( openai_resp ):
    return openai_resp [ 'choices' ][ 0 ][ 'message' ][ 'content' ]


question = 'what‘s chatgpt'

# OpenAI API original usage
openai . api_key = os . getenv ( "OPENAI_API_KEY" )
start_time = time . time ()
response = openai . ChatCompletion . create (
  model = 'gpt-3.5-turbo' ,
  messages = [
    {
        'role' : 'user' ,
        'content' : question
    }
  ],
)
print ( f'Question: { question } ' )
print ( "Time consuming: {:.2f}s" . format ( time . time () - start_time ))
print ( f'Answer: { response_text ( response ) } n ' )

Openai API + GptCache, cache yang cocok

Jika Anda mengajukan chatgpt dua pertanyaan yang sama persis, jawaban untuk pertanyaan kedua akan diperoleh dari cache tanpa meminta chatgpt lagi.

 import time


def response_text ( openai_resp ):
    return openai_resp [ 'choices' ][ 0 ][ 'message' ][ 'content' ]

print ( "Cache loading....." )

# To use GPTCache, that's all you need
# -------------------------------------------------
from gptcache import cache
from gptcache . adapter import openai

cache . init ()
cache . set_openai_key ()
# -------------------------------------------------

question = "what's github"
for _ in range ( 2 ):
    start_time = time . time ()
    response = openai . ChatCompletion . create (
      model = 'gpt-3.5-turbo' ,
      messages = [
        {
            'role' : 'user' ,
            'content' : question
        }
      ],
    )
    print ( f'Question: { question } ' )
    print ( "Time consuming: {:.2f}s" . format ( time . time () - start_time ))
    print ( f'Answer: { response_text ( response ) } n ' )

Openai API + GptCache, cache pencarian serupa

Setelah mendapatkan jawaban dari ChatGPT dalam menanggapi beberapa pertanyaan serupa, jawaban untuk pertanyaan selanjutnya dapat diambil dari cache tanpa perlu meminta chatgpt lagi.

 import time


def response_text ( openai_resp ):
    return openai_resp [ 'choices' ][ 0 ][ 'message' ][ 'content' ]

from gptcache import cache
from gptcache . adapter import openai
from gptcache . embedding import Onnx
from gptcache . manager import CacheBase , VectorBase , get_data_manager
from gptcache . similarity_evaluation . distance import SearchDistanceEvaluation

print ( "Cache loading....." )

onnx = Onnx ()
data_manager = get_data_manager ( CacheBase ( "sqlite" ), VectorBase ( "faiss" , dimension = onnx . dimension ))
cache . init (
    embedding_func = onnx . to_embeddings ,
    data_manager = data_manager ,
    similarity_evaluation = SearchDistanceEvaluation (),
    )
cache . set_openai_key ()

questions = [
    "what's github" ,
    "can you explain what GitHub is" ,
    "can you tell me more about GitHub" ,
    "what is the purpose of GitHub"
]

for question in questions :
    start_time = time . time ()
    response = openai . ChatCompletion . create (
        model = 'gpt-3.5-turbo' ,
        messages = [
            {
                'role' : 'user' ,
                'content' : question
            }
        ],
    )
    print ( f'Question: { question } ' )
    print ( "Time consuming: {:.2f}s" . format ( time . time () - start_time ))
    print ( f'Answer: { response_text ( response ) } n ' )

Openai API + GptCache, gunakan suhu

Anda selalu dapat melewati parameter suhu saat meminta layanan atau model API.
Kisaran temperature adalah [0, 2], nilai default adalah 0,0.
Suhu yang lebih tinggi berarti kemungkinan yang lebih tinggi untuk melewatkan pencarian cache dan meminta model besar secara langsung. Ketika suhu 2, itu akan melewatkan cache dan mengirim permintaan ke model besar secara langsung. Saat suhu 0, ia akan mencari cache sebelum meminta layanan model besar.
post_process_messages_func default adalah temperature_softmax . Dalam hal ini, lihat referensi API untuk mempelajari tentang bagaimana temperature mempengaruhi output.

 import time

from gptcache import cache , Config
from gptcache . manager import manager_factory
from gptcache . embedding import Onnx
from gptcache . processor . post import temperature_softmax
from gptcache . similarity_evaluation . distance import SearchDistanceEvaluation
from gptcache . adapter import openai

cache . set_openai_key ()

onnx = Onnx ()
data_manager = manager_factory ( "sqlite,faiss" , vector_params = { "dimension" : onnx . dimension })

cache . init (
    embedding_func = onnx . to_embeddings ,
    data_manager = data_manager ,
    similarity_evaluation = SearchDistanceEvaluation (),
    post_process_messages_func = temperature_softmax
    )
# cache.config = Config(similarity_threshold=0.2)

question = "what's github"

for _ in range ( 3 ):
    start = time . time ()
    response = openai . ChatCompletion . create (
        model = "gpt-3.5-turbo" ,
        temperature = 1.0 ,  # Change temperature here
        messages = [{
            "role" : "user" ,
            "content" : question
        }],
    )
    print ( "Time elapsed:" , round ( time . time () - start , 3 ))
    print ( "Answer:" , response [ "choices" ][ 0 ][ "message" ][ "content" ])

Untuk menggunakan GPTCACHE secara eksklusif, hanya baris kode berikut yang diperlukan, dan tidak perlu memodifikasi kode yang ada.

 from gptcache import cache
from gptcache . adapter import openai

cache . init ()
cache . set_openai_key ()

Lebih banyak dokumen ：

Penggunaan, cara menggunakan gptcache lebih baik
Fitur, semua fitur yang saat ini didukung oleh cache
Contoh, pelajari caching kustom yang lebih baik
Caching terdistribusi dan penskalaan horizontal

? Bootcamp

GptCache dengan Langchain
- Generasi QA
- Pertanyaan menjawab
- Rantai SQL
- Panduan Pengguna Babyagi
Gptcache dengan llama_index
- Qa halaman web
GptCache dengan Openai
- Penyelesaian Obrolan
- Terjemahan bahasa
- SQL Terjemahan
- Klasifikasi Twitter
- Multimodal: Pembuatan gambar
- Multimodal: Pidato untuk SMS
Gptcache dengan replikasi
- Pertanyaan visual menjawab
GptCache dengan param suhu
- Obrolan Openai
- Pembuatan gambar OpenAI

? Dengan apa bantuan ini?

GPTCACHE menawarkan manfaat utama berikut:

Penurunan biaya : Sebagian besar biaya layanan LLM berdasarkan kombinasi jumlah permintaan dan hitungan token. GPTCACHE secara efektif meminimalkan pengeluaran Anda dengan menangani hasil kueri, yang pada gilirannya mengurangi jumlah permintaan dan token yang dikirim ke layanan LLM. Akibatnya, Anda dapat menikmati pengalaman yang lebih hemat biaya saat menggunakan layanan ini.
Kinerja yang Ditingkatkan : LLMS menggunakan algoritma AI generatif untuk menghasilkan respons secara real-time, suatu proses yang kadang-kadang dapat memakan waktu. Namun, ketika kueri serupa di -cache, waktu respons meningkat secara signifikan, karena hasilnya diambil langsung dari cache, menghilangkan kebutuhan untuk berinteraksi dengan layanan LLM. Dalam kebanyakan situasi, GPTCACHE juga dapat memberikan throughput kueri yang unggul dibandingkan dengan layanan LLM standar.
Lingkungan pengembangan dan pengujian yang dapat disesuaikan : Sebagai pengembang yang bekerja pada aplikasi LLM, Anda sadar bahwa menghubungkan ke LLM API umumnya diperlukan, dan pengujian komprehensif aplikasi Anda sangat penting sebelum memindahkannya ke lingkungan produksi. GPTCACHE menyediakan antarmuka yang mencerminkan API LLM dan mengakomodasi penyimpanan data yang dihasilkan LLM dan diejek. Fitur ini memungkinkan Anda untuk mengembangkan dan menguji aplikasi Anda dengan mudah, menghilangkan kebutuhan untuk terhubung ke layanan LLM.
Peningkatan skalabilitas dan ketersediaan : Layanan LLM sering menegakkan batas tingkat, yang merupakan kendala yang ditempatkan API pada berapa kali pengguna atau klien dapat mengakses server dalam jangka waktu yang diberikan. Memukul batas tarif berarti bahwa permintaan tambahan akan diblokir sampai periode tertentu telah berlalu, yang mengarah ke pemadaman layanan. Dengan GPTCACHE, Anda dapat dengan mudah skala untuk mengakomodasi peningkatan volume kueri, memastikan kinerja yang konsisten saat basis pengguna aplikasi Anda berkembang.

? Bagaimana cara kerjanya?

Layanan online sering menunjukkan lokalitas data, dengan pengguna sering mengakses konten populer atau tren. Sistem cache memanfaatkan perilaku ini dengan menyimpan data yang diakses secara umum, yang pada gilirannya mengurangi waktu pengambilan data, meningkatkan waktu respons, dan meringankan beban pada server backend. Sistem cache tradisional biasanya menggunakan kecocokan yang tepat antara kueri baru dan kueri yang di -cache untuk menentukan apakah konten yang diminta tersedia dalam cache sebelum mengambil data.

Namun, menggunakan pendekatan pencocokan yang tepat untuk cache LLM kurang efektif karena kompleksitas dan variabilitas kueri LLM, menghasilkan laju hit cache rendah. Untuk mengatasi masalah ini, GptCache mengadopsi strategi alternatif seperti caching semantik. Caching semantik mengidentifikasi dan menyimpan kueri yang serupa atau terkait, sehingga meningkatkan probabilitas hit cache dan meningkatkan efisiensi caching secara keseluruhan.

GPTCACHE menggunakan algoritma embedding untuk mengubah kueri menjadi embeddings dan menggunakan toko vektor untuk pencarian kesamaan pada embeddings ini. Proses ini memungkinkan GptCache untuk mengidentifikasi dan mengambil kueri yang serupa atau terkait dari penyimpanan cache, seperti yang diilustrasikan dalam bagian Modul.

Menampilkan desain modular, GPTCACHE memudahkan pengguna untuk menyesuaikan cache semantik mereka sendiri. Sistem ini menawarkan berbagai implementasi untuk setiap modul, dan pengguna bahkan dapat mengembangkan implementasi mereka sendiri agar sesuai dengan kebutuhan spesifik mereka.

Dalam cache semantik, Anda mungkin menghadapi positif palsu selama hit cache dan negatif palsu selama cache gagal. GPTCACHE menawarkan tiga metrik untuk mengukur kinerjanya, yang bermanfaat bagi pengembang untuk mengoptimalkan sistem caching mereka:

Rasio Hit : Metrik ini mengukur kemampuan cache untuk memenuhi permintaan konten dengan sukses, dibandingkan dengan jumlah total permintaan yang diterimanya. Rasio hit yang lebih tinggi menunjukkan cache yang lebih efektif.
Latensi : Metrik ini mengukur waktu yang diperlukan untuk kueri untuk diproses dan data yang sesuai untuk diambil dari cache. Latensi yang lebih rendah menandakan sistem caching yang lebih efisien dan responsif.
Ingat : Metrik ini mewakili proporsi pertanyaan yang dilayani oleh cache dari jumlah total kueri yang seharusnya dilayani oleh cache. Persentase penarikan yang lebih tinggi menunjukkan bahwa cache secara efektif melayani konten yang sesuai.

Benchmark sampel disertakan untuk pengguna untuk memulai dengan menilai kinerja cache semantik mereka.

? Modul

GptCache Struct

Adaptor LLM : Adaptor LLM dirancang untuk mengintegrasikan model LLM yang berbeda dengan menyatukan API mereka dan meminta protokol. GPTCACHE menawarkan antarmuka standar untuk tujuan ini, dengan dukungan saat ini untuk integrasi chatgpt.
- Dukung OpenAI Chatgpt API.
- Mendukung Langchain.
- Dukung Minigpt4.
- Mendukung llamacpp.
- Mendukung Dolly.
- Mendukung LLM lain, seperti Hugging Face Hub, Bard, Anthropic.
Adaptor Multimodal (Eksperimental) : Adaptor multimodal dirancang untuk mengintegrasikan berbagai model multimodal besar dengan menyatukan API mereka dan meminta protokol. GPTCACHE menawarkan antarmuka standar untuk tujuan ini, dengan dukungan saat ini untuk integrasi pembuatan gambar, transkripsi audio.
- Dukung gambar openai Buat API.
- Mendukung Openai Audio Transcribe API.
- Dukung Replicate Blip API.
- Mendukung stabilitas inferensi API.
- Mendukung pipa difusi yang stabil memeluk (inferensi lokal).
- Mendukung layanan multimodal lainnya atau model multimodal besar yang diselenggarakan sendiri.
Generator Embedding : Modul ini dibuat untuk mengekstrak embeddings dari permintaan pencarian kesamaan. GPTCACHE menawarkan antarmuka generik yang mendukung beberapa API embedding, dan menyajikan berbagai solusi untuk dipilih.
- Nonaktifkan embedding. Ini akan mengubah GptCache menjadi cache yang mencocokkan kata kunci.
- Mendukung Openai Embedding API.
- Mendukung ONNX dengan model GPTCACHE/Paraphrase-Albert-ONNX.
- Dukung memeluk wajah yang menanamkan dengan transformer, vitmodel, data2vecaudio.
- Dukungan API yang menyematkan kohere.
- Dukung embedding fasttext.
- Dukungan kalitensifransformers embedding.
- Mendukung model timm untuk penyematan gambar.
- Mendukung API yang menanamkan lainnya.
Penyimpanan cache : Penyimpanan cache adalah tempat respons dari LLMS, seperti chatgpt, disimpan. Respons yang di -cache diambil untuk membantu dalam mengevaluasi kesamaan dan dikembalikan ke pemohon jika ada pertandingan semantik yang baik. Saat ini, GptCache mendukung SQLite dan menawarkan antarmuka yang dapat diakses secara universal untuk perluasan modul ini.
- Mendukung Sqlite.
- Mendukung DuckDB.
- Dukung PostgreSQL.
- Mendukung MySQL.
- Dukung Mariadb.
- Dukung SQL Server.
- Mendukung Oracle.
- Dukungan DynamoDB.
- Mendukung MongoDB.
- Dukung Redis.
- Dukung Minio.
- Dukung HBase.
- Dukung Elasticsearch.
- Mendukung penyimpanan lain.
Vector Store : Modul Vector Store membantu menemukan permintaan K yang paling mirip dari embedding yang diekstraksi permintaan input. Hasilnya dapat membantu menilai kesamaan. GPTCACHE menyediakan antarmuka yang ramah pengguna yang mendukung berbagai toko vektor, termasuk Milvus, Zilliz Cloud, dan FAISS. Lebih banyak opsi akan tersedia di masa mendatang.
- Dukung Milvus, database vektor sumber terbuka untuk aplikasi AI/LLM yang siap-produksi.
- Dukung Zilliz Cloud, database vektor cloud yang dikelola sepenuhnya berdasarkan Milvus.
- Dukung Milvus Lite, versi ringan dari Milvus yang dapat disematkan ke dalam aplikasi Python Anda.
- Dukung FAISS, perpustakaan untuk pencarian kesamaan yang efisien dan pengelompokan vektor padat.
- Dukung HNSWLIB, Perpustakaan C ++/Python hanya header untuk perkiraan cepat tetangga terdekat.
- Dukung PGVektor, Sumber Open-Source Kesamaan Pencarian untuk Postgres.
- Dukung Chroma, database embedding sumber terbuka asli AI.
- Dukungan DocArray, DocArray adalah perpustakaan untuk mewakili, mengirim dan menyimpan data multi-modal, sempurna untuk aplikasi pembelajaran mesin.
- Dukung Qdrant
- Dukung Weaviate
- Mendukung database vektor lainnya.
Cache Manager : Manajer cache bertanggung jawab untuk mengendalikan operasi penyimpanan cache dan toko vektor .
- Kebijakan Penggusuran : Penggusuran cache dapat dikelola dalam memori menggunakan cachetools Python atau dengan cara terdistribusi menggunakan Redis sebagai toko nilai kunci.
- Caching dalam memori
Saat ini, GPTCACHE membuat keputusan tentang penggusuran hanya berdasarkan jumlah baris. Pendekatan ini dapat mengakibatkan evaluasi sumber daya yang tidak akurat dan dapat menyebabkan kesalahan out-of-memory (OOM). Kami secara aktif menyelidiki dan mengembangkan strategi yang lebih canggih.
- Mendukung Kebijakan Penggusuran LRU.
- Mendukung Kebijakan Penggusuran FIFO.
- Mendukung Kebijakan Penggusuran LFU.
- Mendukung Kebijakan Penggusuran RR.
- Mendukung kebijakan penggusuran yang lebih rumit.
- Caching terdistribusi
Jika Anda skala penyebaran GPTCACHE Anda secara horizontal menggunakan caching dalam memori, itu tidak akan mungkin terjadi. Karena informasi yang di -cache akan terbatas pada pod tunggal.
Dengan caching terdistribusi, informasi cache yang konsisten di semua replika yang dapat kami gunakan toko cache terdistribusi seperti Redis.
- Dukung Redis Distributed Cache
- Mendukung cache terdistribusi memcached
Evaluator Kesamaan : Modul ini mengumpulkan data dari penyimpanan cache dan penyimpanan vektor , dan menggunakan berbagai strategi untuk menentukan kesamaan antara permintaan input dan permintaan dari toko vektor . Berdasarkan kesamaan ini, ini menentukan apakah suatu permintaan cocok dengan cache. GPTCACHE menyediakan antarmuka standar untuk mengintegrasikan berbagai strategi, bersama dengan kumpulan implementasi untuk digunakan. Definisi kesamaan berikut saat ini didukung atau akan didukung di masa depan:
- Jarak yang kami peroleh dari toko vektor .
- Kesamaan berbasis model yang ditentukan menggunakan model GPTCACHE/ALBERT-DUPLICATE-INNX dari ONNX.
- Pencocokan yang tepat antara permintaan input dan permintaan yang diperoleh dari toko vektor .
- Jarak yang diwakili dengan menerapkan linalg.norm dari numpy ke embeddings.
- BM25 dan pengukuran kesamaan lainnya.
- Mendukung kerangka kerja model lain seperti Pytorch.
Catatan : Tidak semua kombinasi modul yang berbeda mungkin kompatibel satu sama lain. Misalnya, jika kita menonaktifkan ekstraktor embedding , toko vektor mungkin tidak berfungsi sebagaimana dimaksud. Kami saat ini sedang berupaya menerapkan pemeriksaan kewarasan kombinasi untuk GPTCACHE .