Chroma - o banco de dados de incorporação de código aberto .
A maneira mais rápida de criar aplicativos LLM em Python ou JavaScript com memória!
| | Documentos | Página inicial
pip install chromadb # python client
# for javascript, npm install chromadb!
# for client-server mode, chroma run --path /chroma_db_path
A API principal tem apenas 4 funções (execute nosso modelo Google Colab ou Replit):
import chromadb
# setup Chroma in-memory, for easy prototyping. Can add persistence easily!
client = chromadb . Client ()
# Create collection. get_collection, get_or_create_collection, delete_collection also available!
collection = client . create_collection ( "all-my-documents" )
# Add docs to the collection. Can also update and delete. Row-based API coming soon!
collection . add (
documents = [ "This is document1" , "This is document2" ], # we handle tokenization, embedding, and indexing automatically. You can skip that and add your own embeddings as well
metadatas = [{ "source" : "notion" }, { "source" : "google-docs" }], # filter on these!
ids = [ "doc1" , "doc2" ], # unique for each doc
)
# Query/search 2 most similar results. You can also .get by id
results = collection . query (
query_texts = [ "This is a query document" ],
n_results = 2 ,
# where={"metadata_field": "is_equal_to_this"}, # optional filter
# where_document={"$contains":"search_string"} # optional filter
)
?️? LangChain
(python e js), ? LlamaIndex
e muito mais em breve Por exemplo, o caso de uso "Chat your data"
:
GPT3
para resumo ou análise adicional. O que são incorporações?
[1.2, 2.1, ....]
. Este processo torna os documentos “compreensíveis” para um modelo de aprendizado de máquina.Os bancos de dados de incorporação (também conhecidos como bancos de dados vetoriais ) armazenam incorporações e permitem pesquisar por vizinhos mais próximos, em vez de por substrings, como um banco de dados tradicional. Por padrão, o Chroma usa transformadores de frases para incorporar para você, mas você também pode usar embeddings OpenAI, embeddings Cohere (multilíngue) ou os seus próprios.
Chroma é um projeto em rápido desenvolvimento. Agradecemos colaboradores de relações públicas e ideias sobre como melhorar o projeto.
#contributing
Good first issue tag
Cadência de lançamento Atualmente, lançamos novas versões marcadas dos pacotes pypi
e npm
às segundas-feiras. Os hotfixes são lançados a qualquer momento durante a semana.
Apache 2.0