빠른 시작 | 문서 | 제로 투 히어로 가이드
Llama Stack은 생성 AI 애플리케이션을 시장에 출시하는 데 필요한 핵심 빌딩 블록 세트를 정의하고 표준화합니다. 이러한 빌딩 블록은 구현을 제공하는 광범위한 서비스 제공업체와 상호 운용 가능한 API 형태로 제공됩니다.
우리의 목표는 다양한 배포 환경에서 작동할 수 있는 사전 패키지된 구현을 제공하는 것입니다. 개발자는 데스크톱이나 모바일 장치로 반복을 시작하고 온프레미스 또는 퍼블릭 클라우드 배포로 원활하게 전환할 수 있습니다. 이 전환의 모든 지점에서 동일한 API 세트와 동일한 개발자 경험을 사용할 수 있습니다.
⚠️ 참고 Stack API는 빠르게 개선되고 있지만 여전히 많은 작업이 진행 중이므로 피드백과 직접적인 기여를 요청합니다.
현재 우리는 다음 API를 구현하고 있습니다.
추론
안전
메모리
자치령 대표
평가
원격 측정
이러한 API와 함께 관련 리소스와 함께 작동하기 위한 관련 API도 있습니다(개념 참조).
모델
방패
메모리 뱅크
평가 작업
데이터세트
채점 기능
우리는 또한 곧 출시될 다음 API에 대해서도 작업하고 있습니다.
훈련 후
합성 데이터 생성
보상 점수
각 API 자체는 REST 엔드포인트의 모음입니다.
다른 프레임워크와 달리 Llama Stack은 서비스 지향 REST API 우선 접근 방식으로 구축되었습니다. 이러한 디자인은 로컬 배포에서 원격 배포로의 원활한 전환을 허용할 뿐만 아니라 디자인이 더욱 선언적이 되도록 합니다. 우리는 이러한 제한을 통해 훨씬 더 간단하고 강력한 개발자 경험을 제공할 수 있다고 믿습니다. 이는 표현성과 반드시 상쇄되지만 API를 올바르게 사용하면 매우 강력한 플랫폼으로 이어질 수 있습니다.
우리는 우리가 디자인하는 API 세트가 구성 가능하다고 기대합니다. 에이전트는 추상적으로 { 추론, 메모리, 안전 } API에 의존하지만 실제 구현 세부 사항에는 신경 쓰지 않습니다. 안전 자체에는 모델 추론이 필요할 수 있으므로 추론 API에 따라 달라질 수 있습니다.
우리는 널리 사용되는 배포 시나리오에 대한 턴키 솔루션을 제공할 것으로 기대합니다. AWS 또는 개인 데이터 센터에 Llama Stack 서버를 배포하는 것이 쉬워야 합니다. 이들 중 하나를 사용하면 개발자는 몇 분 만에 강력한 에이전트 앱, 모델 평가 또는 미세 조정 서비스를 시작할 수 있습니다. 모두 동일하고 균일한 관찰 가능성과 개발자 경험을 제공해야 합니다.
Meta가 시작한 프로젝트로서 우리는 Meta의 Llama 모델 시리즈에 명시적으로 초점을 맞추는 것부터 시작했습니다. 광범위한 개방형 모델을 지원하는 것은 쉬운 작업이 아니며 우리가 가장 잘 이해하는 모델부터 시작하고 싶습니다.
효율적인 추론이나 확장 가능한 벡터 저장소 또는 강력한 관찰 솔루션을 제공하는 활발한 공급자 생태계가 있습니다. 우리는 개발자가 자신의 사용 사례에 가장 적합한 구현을 쉽게 선택하고 선택할 수 있도록 하고 싶습니다. 또한 우리는 새로운 공급자가 생태계에 쉽게 합류하고 참여할 수 있도록 하고 싶습니다.
또한 API와 리소스(예: 모델)가 연합될 수 있도록 스택의 모든 요소를 설계했습니다.
API 제공업체 빌더 | 환경 | 자치령 대표 | 추론 | 메모리 | 안전 | 원격 측정 |
---|---|---|---|---|---|---|
메타 참조 | 단일 노드 | ✔️ | ✔️ | ✔️ | ✔️ | ✔️ |
불꽃 | 호스팅됨 | ✔️ | ✔️ | ✔️ | ||
AWS 기반암 | 호스팅됨 | ✔️ | ✔️ | |||
함께 | 호스팅됨 | ✔️ | ✔️ | ✔️ | ||
올라마 | 단일 노드 | ✔️ | ||||
TGI | 호스팅 및 단일 노드 | ✔️ | ||||
크로마 | 단일 노드 | ✔️ | ||||
PG 벡터 | 단일 노드 | ✔️ | ||||
PyTorch ExecuTorch | 온디바이스 iOS | ✔️ | ✔️ |
분포 | 라마 스택 도커 | 이 배포를 시작하세요 |
---|---|---|
메타 참조 | 라마스택/배포-메타-참조-gpu | 가이드 |
메타 참조 양자화 | 라마스택/배포-메타-참조-양자화-gpu | 가이드 |
올라마 | 라마스택/배포-올라마 | 가이드 |
TGI | 라마스택/배포-tgi | 가이드 |
함께 | 라마스택/함께 배포 | 가이드 |
불꽃 | 라마스택/배포-불꽃놀이 | 가이드 |
이 저장소를 설치하는 방법에는 두 가지가 있습니다.
패키지로 설치 : 다음 명령을 실행하여 PyPI에서 직접 리포지토리를 설치할 수 있습니다.
pip 설치 라마 스택
소스에서 설치 : 소스 코드에서 설치하려면 다음 단계를 따르세요.
mkdir -p ~/로컬 CD ~/로컬 자식 복제 [email protected]:meta-llama/llama-stack.git conda create -n 스택 python=3.10 conda는 스택을 활성화합니다 cd llama-stack $CONDA_PREFIX/bin/pip install -e .
자세한 내용은 문서 페이지를 확인하세요.
CLI 참조
llama
CLI를 사용하여 Llama 모델(다운로드, 학습 프롬프트) 작업 및 Llama Stack 배포판 구축/시작을 안내합니다.
시작하기
Llama Stack 서버를 시작하기 위한 빠른 가이드입니다.
간단한 텍스트 및 비전 추론 llama_stack_client API를 사용하는 방법을 안내하는 Jupyter 노트북
Deeplearning.ai의 새로운 Llama 3.2 과정에 대한 전체 Llama Stack 강의 Colab 노트북입니다.
코드 샘플과 함께 Lama 스택의 모든 주요 구성 요소를 안내하는 Zero-to-Hero 가이드입니다.
기여
새 API 공급자를 추가하는 방법을 안내하려면 새 API 공급자 추가를 참조하세요.
언어 | 클라이언트 SDK | 패키지 |
---|---|---|
파이썬 | 라마-스택-클라이언트-파이썬 | |
스위프트 | 라마 스택 클라이언트 스위프트 | |
마디 | 라마 스택 클라이언트 노드 | |
코틀린 | 라마-스택-클라이언트-코틀린 |
선호하는 언어로 Llama Stack 서버에 연결하려면 클라이언트 SDK를 확인하세요. Python, Node, Swift 및 Kotlin 프로그래밍 언어 중에서 선택하여 애플리케이션을 빠르게 구축할 수 있습니다.
llama-stack-apps 저장소에서 Llama Stack 서버와 통신하기 위한 클라이언트 SDK가 포함된 더 많은 예제 스크립트를 찾을 수 있습니다.