Início rápido | Documentação | Guia do zero ao herói
Llama Stack define e padroniza o conjunto de blocos de construção necessários para trazer aplicativos generativos de IA ao mercado. Esses blocos de construção são apresentados na forma de APIs interoperáveis com um amplo conjunto de provedores de serviços fornecendo suas implementações.
Nosso objetivo é fornecer implementações pré-empacotadas que possam ser operadas em uma variedade de ambientes de implantação: os desenvolvedores começam a iterar com desktops ou seus dispositivos móveis e podem fazer uma transição perfeita para implantações locais ou em nuvem pública. Em cada ponto desta transição, o mesmo conjunto de APIs e a mesma experiência do desenvolvedor estão disponíveis.
⚠️ Observação As APIs Stack estão melhorando rapidamente, mas ainda há muito trabalho em andamento e convidamos comentários e contribuições diretas.
Temos implementações funcionais das seguintes APIs hoje:
Inferência
Segurança
Memória
Agentes
Avaliação
Telemetria
Juntamente com estas APIs, também relacionamos APIs para operar com recursos associados (ver Conceitos):
Modelos
Escudos
Bancos de memória
EvalTasks
Conjuntos de dados
Funções de pontuação
Também estamos trabalhando nas seguintes APIs que serão lançadas em breve:
Pós-treinamento
Geração de Dados Sintéticos
Pontuação de recompensa
Cada uma das APIs é uma coleção de endpoints REST.
Ao contrário de outras estruturas, o Llama Stack é construído com uma abordagem orientada a serviços e baseada na API REST. Esse design não apenas permite transições perfeitas de implantações locais para remotas, mas também força o design a ser mais declarativo. Acreditamos que essa restrição pode resultar em uma experiência de desenvolvedor muito mais simples e robusta. Isso necessariamente compensará a expressividade; no entanto, se acertarmos nas APIs, isso poderá levar a uma plataforma muito poderosa.
Esperamos que o conjunto de APIs que projetamos seja combinável. Um Agente depende abstratamente de APIs {Inference, Memory, Safety}, mas não se preocupa com os detalhes reais da implementação. A própria segurança pode exigir inferência de modelo e, portanto, pode depender da API de inferência.
Esperamos fornecer soluções prontas para uso para cenários de implantação populares. Deve ser fácil implantar um servidor Llama Stack na AWS ou em um data center privado. Qualquer um deles deve permitir que um desenvolvedor comece a usar aplicativos de agente poderosos, avaliações de modelos ou serviços de ajuste fino em questão de minutos. Todos eles devem resultar na mesma observabilidade uniforme e experiência do desenvolvedor.
Como um projeto iniciado pela Meta, começamos focando explicitamente na série de modelos Llama da Meta. Apoiar o amplo conjunto de modelos abertos não é uma tarefa fácil e queremos começar com modelos que entendemos melhor.
Existe um ecossistema vibrante de provedores que fornecem inferência eficiente ou armazenamentos de vetores escalonáveis ou soluções poderosas de observabilidade. Queremos garantir que seja fácil para os desenvolvedores escolherem as melhores implementações para seus casos de uso. Também queremos garantir que seja fácil para novos Provedores integrarem-se e participarem do ecossistema.
Além disso, projetamos cada elemento da pilha de forma que APIs e recursos (como modelos) possam ser federados.
Construtor de provedor de API | Ambientes | Agentes | Inferência | Memória | Segurança | Telemetria |
---|---|---|---|---|---|---|
Referência meta | Nó único | ✔️ | ✔️ | ✔️ | ✔️ | ✔️ |
Fogos de artifício | Hospedado | ✔️ | ✔️ | ✔️ | ||
Base da AWS | Hospedado | ✔️ | ✔️ | |||
Junto | Hospedado | ✔️ | ✔️ | ✔️ | ||
Ollama | Nó único | ✔️ | ||||
TGI | Nó hospedado e único | ✔️ | ||||
Croma | Nó único | ✔️ | ||||
Vetor PG | Nó único | ✔️ | ||||
ExecuTorch PyTorch | iOS no dispositivo | ✔️ | ✔️ |
Distribuição | Lhama Stack Docker | Comece esta distribuição |
---|---|---|
Referência meta | llamastack/distribuição-meta-referência-gpu | Guia |
Meta referência quantizada | llamastack/distribuição-meta-referência-quantizada-gpu | Guia |
Ollama | lhamastack / distribuição-ollama | Guia |
TGI | llamastack/distribution-tgi | Guia |
Junto | llamastack/distribuição-juntos | Guia |
Fogos de artifício | lhamastack/distribuição-fogos de artifício | Guia |
Você tem duas maneiras de instalar este repositório:
Instalar como um pacote : você pode instalar o repositório diretamente do PyPI executando o seguinte comando:
pip instalar pilha de lhama
Instalar a partir do código-fonte : se preferir instalar a partir do código-fonte, siga estas etapas:
mkdir -p ~/local cd ~/local git clone [email protected]:meta-llama/llama-stack.git conda criar -n pilha python=3.10 conda ativar pilha cd llama-stack $CONDA_PREFIX/bin/pip install -e .
Por favor, verifique nossa página de documentação para mais detalhes.
Referência CLI
Guia sobre o uso da CLI llama
para trabalhar com modelos do Llama (download, instruções de estudo) e construir/iniciar uma distribuição do Llama Stack.
Começando
Guia rápido para iniciar um servidor Llama Stack.
Notebook Jupyter para explicar como usar APIs de inferência de visão e texto simples llama_stack_client
O caderno Colab completo da lição Llama Stack do novo curso Llama 3.2 em Deeplearning.ai.
Um guia do zero ao herói que o guia por todos os principais componentes da pilha de lhama com exemplos de código.
Contribuindo
Adicionando um novo provedor de API para mostrar como adicionar um novo provedor de API.
Linguagem | SDK do cliente | Pacote |
---|---|---|
Pitão | lhama-stack-client-python | |
Rápido | lhama-stack-client-swift | |
Nó | lhama-stack-client-node | |
Kotlin | lhama-stack-client-kotlin |
Confira nossos SDKs de cliente para conectar-se ao servidor Llama Stack em sua linguagem preferida. Você pode escolher entre as linguagens de programação python, node, swift e kotlin para construir rapidamente seus aplicativos.
Você pode encontrar mais scripts de exemplo com SDKs de cliente para conversar com o servidor Llama Stack em nosso repositório llama-stack-apps.