chromaダウンロード - chromaソースコードのダウンロード

chroma

その他のソースコード

0.5.20

ダウンロード

クロマのロゴ

Chroma - オープンソースの埋め込みデータベース。
メモリを使用して Python または JavaScript LLM アプリを構築する最速の方法!

| |ドキュメント |ホームページ

pip install chromadb # python client
# for javascript, npm install chromadb!
# for client-server mode, chroma run --path /chroma_db_path

コア API は 4 つの関数のみです (Google Colab または Replit テンプレートを実行します)。

 import chromadb
# setup Chroma in-memory, for easy prototyping. Can add persistence easily!
client = chromadb . Client ()

# Create collection. get_collection, get_or_create_collection, delete_collection also available!
collection = client . create_collection ( "all-my-documents" )

# Add docs to the collection. Can also update and delete. Row-based API coming soon!
collection . add (
    documents = [ "This is document1" , "This is document2" ], # we handle tokenization, embedding, and indexing automatically. You can skip that and add your own embeddings as well
    metadatas = [{ "source" : "notion" }, { "source" : "google-docs" }], # filter on these!
    ids = [ "doc1" , "doc2" ], # unique for each doc
)

# Query/search 2 most similar results. You can also .get by id
results = collection . query (
    query_texts = [ "This is a query document" ],
    n_results = 2 ,
    # where={"metadata_field": "is_equal_to_this"}, # optional filter
    # where_document={"$contains":"search_string"}  # optional filter
)

特徴

シンプル: 完全に型付けされ、完全にテストされ、完全に文書化された == 幸福
統合: ?️? LangChain (Python および JS) ? LlamaIndexなども近々公開予定
開発、テスト、本番: Python ノートブックで実行されるのと同じ API で、クラスターに合わせて拡張されます。
豊富な機能: クエリ、フィルタリング、密度推定など
無料 & オープンソース: Apache 2.0 ライセンス済み

使用例: ______ 用の ChatGPT

たとえば、 "Chat your data"の使用例は次のとおりです。

データベースにドキュメントを追加します。独自の埋め込みや埋め込み関数を渡すことも、Chroma に埋め込ませることもできます。
関連するドキュメントを自然言語でクエリします。
追加の要約や分析のために、 GPT3などの LLM のコンテキストウィンドウにドキュメントを作成します。

埋め込み？

埋め込みとは何ですか?

OpenAI のガイドを読む
リテラル: 何かを埋め込むと、画像/テキスト/音声が数値のリストに変わります。 ⁉️それとも？ => [1.2, 2.1, ....] 。このプロセスにより、文書は機械学習モデルにとって「理解可能」になります。
類推すると、埋め込みはドキュメントの本質を表します。これにより、同じ本質を持つドキュメントとクエリが互いに「近く」に配置され、検索が容易になります。
技術的: 埋め込みとは、ディープニューラルネットワークの層におけるドキュメントの潜在空間の位置です。データを埋め込むために特別にトレーニングされたモデルの場合、これは最後の層です。
小さな例: 「サンフランシスコの有名な橋」で写真を検索するとします。このクエリを埋め込み、写真とそのメタデータの埋め込みと比較すると、ゴールデンゲートブリッジの写真が返されるはずです。

エンベディングデータベース (ベクトルデータベースとも呼ばれる) はエンベディングを保存し、従来のデータベースのような部分文字列ではなく、最近傍によって検索できるようにします。デフォルトでは、Chroma は Sentence Transformers を使用して埋め込みますが、OpenAI 埋め込み、Cohere (多言語) 埋め込み、または独自の埋め込みを使用することもできます。