chroma 다운로드 - chroma 소스 코드 다운로드

chroma

기타 소스코드

0.5.20

다운로드

크로마 로고

Chroma – 오픈 소스 임베딩 데이터베이스 .
메모리가 포함된 Python 또는 JavaScript LLM 앱을 구축하는 가장 빠른 방법!

| | 문서 | 홈페이지

pip install chromadb # python client
# for javascript, npm install chromadb!
# for client-server mode, chroma run --path /chroma_db_path

핵심 API는 단 4개의 함수입니다(Google Colab 또는 Replit 템플릿 실행).

 import chromadb
# setup Chroma in-memory, for easy prototyping. Can add persistence easily!
client = chromadb . Client ()

# Create collection. get_collection, get_or_create_collection, delete_collection also available!
collection = client . create_collection ( "all-my-documents" )

# Add docs to the collection. Can also update and delete. Row-based API coming soon!
collection . add (
    documents = [ "This is document1" , "This is document2" ], # we handle tokenization, embedding, and indexing automatically. You can skip that and add your own embeddings as well
    metadatas = [{ "source" : "notion" }, { "source" : "google-docs" }], # filter on these!
    ids = [ "doc1" , "doc2" ], # unique for each doc
)

# Query/search 2 most similar results. You can also .get by id
results = collection . query (
    query_texts = [ "This is a query document" ],
    n_results = 2 ,
    # where={"metadata_field": "is_equal_to_this"}, # optional filter
    # where_document={"$contains":"search_string"}  # optional filter
)

특징

단순함 : 완전한 유형, 완전한 테스트, 완전한 문서 == 행복
통합 : ?️? LangChain (파이썬 및 js), ? LlamaIndex 등 추가 예정
Dev, Test, Prod : Python 노트북에서 실행되는 것과 동일한 API이며 클러스터에 맞게 확장됩니다.
풍부한 기능 : 쿼리, 필터링, 밀도 추정 등
무료 및 오픈 소스 : Apache 2.0 라이센스

사용 사례: ______용 ChatGPT

예를 들어 "Chat your data" 사용 사례는 다음과 같습니다.

데이터베이스에 문서를 추가하세요. 자신만의 임베딩, 임베딩 기능을 전달하거나 Chroma가 이를 임베딩하도록 할 수 있습니다.
자연어로 관련 문서를 쿼리합니다.
추가 요약 또는 분석을 위해 GPT3 와 같은 LLM의 컨텍스트 창에 문서를 작성합니다.

임베딩?

임베딩이란 무엇입니까?

OpenAI 가이드 읽기
리터럴 : 무언가를 삽입하면 이미지/텍스트/오디오에서 숫자 목록으로 전환됩니다. ?️ 또는 ? => [1.2, 2.1, ....] . 이 프로세스를 통해 기계 학습 모델이 문서를 "이해할 수 있게" 됩니다.
비유하자면 임베딩은 문서의 본질을 나타냅니다. 이를 통해 동일한 본질을 가진 문서와 쿼리가 서로 "가까워" 있으므로 쉽게 찾을 수 있습니다.
기술 : 임베딩은 심층 신경망 계층에서 문서의 잠재 공간 위치입니다. 데이터를 삽입하도록 특별히 훈련된 모델의 경우 이것이 마지막 계층입니다.
작은 예 : 사진에서 "샌프란시스코의 유명한 다리"를 검색하는 경우. 이 쿼리를 삽입하고 이를 사진 및 해당 메타데이터의 삽입과 비교하면 금문교 사진이 반환됩니다.

임베딩 데이터베이스( 벡터 데이터베이스 라고도 함)는 임베딩을 저장하고 기존 데이터베이스와 같은 하위 문자열이 아닌 가장 가까운 이웃을 기준으로 검색할 수 있도록 해줍니다. 기본적으로 Chroma는 Sentence Transformer를 사용하여 삽입하지만 OpenAI 임베딩, Cohere(다국어) 임베딩 또는 자체 임베딩을 사용할 수도 있습니다.