txtai는 의미 체계 검색, LLM 조정 및 언어 모델 워크플로를 위한 올인원 임베딩 데이터베이스입니다.
임베딩 데이터베이스는 벡터 인덱스(희소 및 조밀), 그래프 네트워크 및 관계형 데이터베이스의 조합입니다.
이 기반은 벡터 검색을 가능하게 하고 LLM(대형 언어 모델) 애플리케이션을 위한 강력한 지식 소스 역할을 합니다.
자율 에이전트, RAG(검색 증강 생성) 프로세스, 다중 모델 워크플로 등을 구축하세요.
txtai 기능 요약:
txtai는 Python 3.9+, Hugging Face Transformers, Sentence Transformers 및 FastAPI로 구축되었습니다. txtai는 Apache 2.0 라이선스에 따른 오픈 소스입니다.
호스팅된 txtai 애플리케이션을 실행하는 쉽고 안전한 방법에 관심이 있으십니까? 그런 다음 txtai.cloud 미리보기에 참여하여 자세히 알아보세요.
새로운 벡터 데이터베이스, LLM 프레임워크 및 그 사이의 모든 것이 매일 생겨나고 있습니다. 왜 txtai로 빌드하나요?
# Get started in a couple lines
import txtai
embeddings = txtai . Embeddings ()
embeddings . index ([ "Correct" , "Not what we hoped" ])
embeddings . search ( "positive" , 1 )
#[(0, 0.29862046241760254)]
# app.yml
embeddings :
path : sentence-transformers/all-MiniLM-L6-v2
CONFIG=app.yml uvicorn " txtai.api:app "
curl -X GET " http://localhost:8000/search?query=positive "
다음 섹션에서는 일반적인 txtai 사용 사례를 소개합니다. 60개가 넘는 예제 노트북과 애플리케이션으로 구성된 포괄적인 세트도 제공됩니다.
의미/유사성/벡터/신경망 검색 애플리케이션을 구축하세요.
기존 검색 시스템은 키워드를 사용하여 데이터를 찾습니다. 의미론적 검색은 자연어를 이해하고 동일한 키워드가 아닌 동일한 의미를 갖는 결과를 식별합니다.
다음 예제로 시작해보세요.
공책 | 설명 | |
---|---|---|
txtai 소개 | txtai가 제공하는 기능 개요 | |
이미지와의 유사성 검색 | 검색을 위해 이미지와 텍스트를 같은 공간에 삽입하세요. | |
QA 데이터베이스 구축 | 의미 검색을 통한 질문 매칭 | |
의미 그래프 | 주제 탐색, 데이터 연결 및 네트워크 분석 실행 |
자율 에이전트, RAG(검색 증강 생성), 데이터와의 채팅, LLM(대규모 언어 모델)과 인터페이스하는 파이프라인 및 워크플로입니다.
자세한 내용은 아래를 참조하세요.
공책 | 설명 | |
---|---|---|
프롬프트 템플릿 및 작업 체인 | 모델 프롬프트를 구축하고 작업 흐름을 통해 작업을 연결하세요 | |
LLM 프레임워크 통합 | llama.cpp, LiteLLM 및 사용자 정의 생성 프레임워크 통합 | |
LLM을 사용하여 지식 그래프 구축 | LLM 기반 엔터티 추출로 지식 그래프 구축 |
에이전트는 임베딩, 파이프라인, 워크플로 및 기타 에이전트를 함께 연결하여 복잡한 문제를 자율적으로 해결합니다.
txtai 에이전트는 Transformers Agent 프레임워크 위에 구축됩니다. 이는 txtai가 지원하는 모든 LLM(Hugging Face, llama.cpp, LiteLLM을 통한 OpenAI/Claude/AWS Bedrock)을 지원합니다.
자세한 내용은 아래 링크를 참조하세요.
공책 | 설명 | |
---|---|---|
TXAI 8.0의 새로운 기능 | txtai를 사용하는 에이전트 | |
그래프와 에이전트를 사용하여 포옹하는 얼굴 게시물 분석 | 그래프 분석 및 에이전트를 통해 풍부한 데이터 세트 탐색 | |
에이전트에 자율성 부여 | 적합하다고 판단되는 문제를 반복적으로 해결하는 에이전트 |
RAG(검색 증강 생성)는 지식 기반을 컨텍스트로 사용하여 출력을 제한하여 LLM 환각의 위험을 줄입니다. RAG는 일반적으로 "데이터와의 채팅"에 사용됩니다.
txtai의 새로운 특징은 답변과 출처 인용을 모두 제공할 수 있다는 것입니다.
공책 | 설명 | |
---|---|---|
txtai를 사용하여 RAG 파이프라인 구축 | 인용 생성 방법을 포함한 검색 증강 생성 가이드 | |
txtai를 사용한 RAG의 작동 방식 | RAG 프로세스, API 서비스 및 Docker 인스턴스 생성 | |
그래프 경로 순회 기능을 갖춘 고급 RAG | 고급 RAG에 대한 복잡한 데이터 세트를 수집하기 위한 그래프 경로 탐색 | |
음성 대 음성 RAG | RAG를 사용한 전체 주기 음성 대 음성 워크플로 |
의미 체계 워크플로라고도 하는 언어 모델 워크플로는 언어 모델을 서로 연결하여 지능형 애플리케이션을 구축합니다.
LLM은 강력하지만 특정 작업에 더 빠르고 효율적으로 작동하는 더 작고 전문화된 모델이 많이 있습니다. 여기에는 추출적 질문 답변, 자동 요약, 텍스트 음성 변환, 전사 및 번역을 위한 모델이 포함됩니다.
공책 | 설명 | |
---|---|---|
파이프라인 워크플로 실행 | 데이터를 효율적으로 처리하기 위한 간단하면서도 강력한 구성 | |
추상적인 텍스트 요약 작성 | 추상적인 텍스트 요약 실행 | |
오디오를 텍스트로 변환 | 오디오 파일을 텍스트로 변환 | |
언어 간 텍스트 번역 | 기계 번역 및 언어 감지 간소화 |
가장 쉬운 설치 방법은 pip와 PyPI를 이용하는 것입니다.
pip install txtai
Python 3.9+가 지원됩니다. Python 가상 환경을 사용하는 것이 좋습니다.
선택적 종속성, 환경별 전제 조건, 소스에서 설치, conda 지원 및 컨테이너를 사용하여 실행하는 방법을 다루는 자세한 내용은 자세한 설치 지침을 참조하세요.
현재 권장되는 모델은 아래 표를 참조하세요. 이러한 모델은 모두 상업적 사용이 가능하며 속도와 성능이 조화를 이루고 있습니다.
요소 | 모델 |
---|---|
임베딩 | 모든-MiniLM-L6-v2 |
이미지 캡션 | 블립 |
라벨 - 제로 샷 | BART-대형-MNLI |
라벨 - 고정 | 학습 파이프라인으로 미세 조정 |
대형 언어 모델(LLM) | 라마 3.1 지시 |
요약 | 디스틸BART |
텍스트 음성 변환 | ESPnet 제트기 |
전사 | 속삭임 |
번역 | OPUS 모델 시리즈 |
모델은 Hugging Face Hub 또는 로컬 디렉터리의 경로로 로드될 수 있습니다. 모델 경로는 선택 사항이며, 지정하지 않으면 기본값이 로드됩니다. 권장 모델이 없는 작업의 경우 txtai는 포옹 얼굴 작업 가이드에 표시된 기본 모델을 사용합니다.
자세한 내용은 다음 링크를 참조하세요.
다음 애플리케이션은 txtai에 의해 구동됩니다.
애플리케이션 | 설명 |
---|---|
txtchat | RAG(검색 증강 생성) 기반 검색 |
종이 | 의학/과학 논문에 대한 의미 검색 및 워크플로우 |
코드 질문 | 개발자를 위한 의미론적 검색 |
이야기 | 헤드라인 및 스토리 텍스트에 대한 의미론적 검색 |
이 목록 외에도 txtai를 기반으로 프로덕션을 구축한 다른 많은 오픈 소스 프로젝트, 출판된 연구 및 폐쇄된 독점/상업 프로젝트도 있습니다.
임베딩, 파이프라인, 워크플로, API에 대한 구성 설정과 일반적인 질문/문제가 있는 FAQ를 포함하여 txtai에 대한 전체 문서를 사용할 수 있습니다.
txtai에 기여하고 싶은 분들은 이 가이드를 참조하세요.