Llama é um modelo de linguagem grande (LLM) acessível e aberto, projetado para desenvolvedores, pesquisadores e empresas construírem, experimentarem e dimensionarem com responsabilidade suas ideias generativas de IA. Parte de um sistema fundamental, serve como base para a inovação na comunidade global. Alguns aspectos principais:
Acesso aberto : Fácil acessibilidade a grandes modelos de linguagem de ponta, promovendo a colaboração e avanços entre desenvolvedores, pesquisadores e organizações
Amplo ecossistema : os modelos do Llama foram baixados centenas de milhões de vezes, há milhares de projetos comunitários construídos no Llama e o suporte da plataforma é amplo, desde provedores de nuvem até startups - o mundo está construindo com o Llama!
Confiança e segurança : os modelos Llama fazem parte de uma abordagem abrangente de confiança e segurança, lançando modelos e ferramentas projetadas para permitir a colaboração da comunidade e incentivar a padronização do desenvolvimento e uso de ferramentas de confiança e segurança para IA generativa
Nossa missão é capacitar os indivíduos e a indústria por meio desta oportunidade, ao mesmo tempo em que promovemos um ambiente de descoberta e avanços éticos em IA. Os pesos modelo são licenciados para investigadores e entidades comerciais, respeitando os princípios de abertura.
Modelo | Data de lançamento | Tamanhos de modelo | Comprimento do contexto | Tokenizador | Política de uso aceitável | Licença | Cartão Modelo |
---|---|---|---|---|---|---|---|
Lhama 2 | 18/07/2023 | 7B, 13B, 70B | 4K | Frase | Política de uso | Licença | Cartão Modelo |
Lhama 3 | 18/04/2024 | 8B, 70B | 8K | Baseado em TikToken | Política de uso | Licença | Cartão Modelo |
Lhama 3.1 | 23/07/2024 | 8B, 70B, 405B | 128K | Baseado em TikToken | Política de uso | Licença | Cartão Modelo |
Lhama 3.2 | 25/09/2024 | 1B, 3B | 128K | Baseado em TikToken | Política de uso | Licença | Cartão Modelo |
Lhama 3.2-Visão | 25/09/2024 | 11B, 90B | 128K | Baseado em TikToken | Política de uso | Licença | Cartão Modelo |
Para baixar os pesos do modelo e o tokenizer:
Visite o site da Meta Llama.
Leia e aceite a licença.
Assim que sua solicitação for aprovada, você receberá um URL assinado por e-mail.
Instale a CLI do Llama: pip install llama-stack
. ( <- Comece aqui se você já recebeu um e-mail. )
Execute llama model list
para mostrar os modelos disponíveis mais recentes e determinar o ID do modelo que deseja baixar. NOTA : Se você quiser versões mais antigas de modelos, execute llama model list --show-all
para mostrar todos os modelos Llama disponíveis.
Execute: llama download --source meta --model-id CHOSEN_MODEL_ID
Passe o URL fornecido quando solicitado para iniciar o download.
Lembre-se que os links expiram após 24 horas e uma certa quantidade de downloads. Você sempre pode solicitar um link novamente se começar a ver erros como 403: Forbidden
.
Você precisa instalar as seguintes dependências (além do requirements.txt
no diretório raiz deste repositório) para executar os modelos:
pip install torch fairscale fire blobfile
Depois de instalar as dependências, você pode executar os scripts de exemplo (dentro do subdiretório llama_models/scripts/
) da seguinte forma:
#!/bin/bashCHECKPOINT_DIR=~/.llama/checkpoints/Meta-Llama3.1-8B-Instruct PYTHONPATH=$(git rev-parse --show-toplevel) torchrun llama_models/scripts/example_chat_completion.py $CHECKPOINT_DIR
O script acima deve ser usado com um modelo Instruct (Chat). Para um modelo base, use o script llama_models/scripts/example_text_completion.py
. Observe que você pode usar esses scripts com as séries de modelos Llama3 e Llama3.1.
Para executar modelos maiores com paralelismo tensorial, você deve modificar como:
#!/bin/bashNGPUS=8 PYTHONPATH=$(git rev-parse --show-toplevel) torchrun --nproc_per_node=$NGPUS llama_models/scripts/example_chat_completion.py $CHECKPOINT_DIR --model_parallel_size $NGPUS
Para obter mais flexibilidade na execução de inferência (incluindo execução de inferência FP8), consulte o repositório Llama Stack
.
Também fornecemos downloads no Hugging Face, nos formatos transformers e nativo llama3
. Para baixar os pesos do Hugging Face, siga estas etapas:
Visite um dos repositórios, por exemplo metal-llama/Meta-Llama-3.1-8B-Instruct.
Leia e aceite a licença. Assim que sua solicitação for aprovada, você terá acesso a todos os modelos do Llama 3.1, bem como às versões anteriores. Observe que as solicitações costumavam levar até uma hora para serem processadas.
Para baixar os pesos nativos originais para usar com este repositório, clique na aba “Arquivos e versões” e baixe o conteúdo da pasta original
. Você também pode baixá-los da linha de comando se pip install huggingface-hub
:
huggingface-cli baixar meta-llama/Meta-Llama-3.1-8B-Instruct --include "original/*" --local-dir meta-llama/Meta-Llama-3.1-8B-Instruct
NOTA Os pesos nativos originais de metal-llama/Meta-Llama-3.1-405B não estariam disponíveis através deste repositório HugginFace.
Para usar com transformadores, o seguinte snippet de pipeline fará download e armazenará em cache os pesos:
importar transformersimport torchmodel_id = "meta-llama/Meta-Llama-3.1-8B-Instruct"pipeline = transformers.pipeline( "geração de texto", model="meta-llama/Meta-Llama-3.1-8B-Instruct", model_kwargs ={"torch_dtype": torch.bfloat16}, dispositivo="cuda", )
Você pode instalar este repositório como um pacote apenas fazendo pip install llama-models
Os modelos Llama são uma nova tecnologia que acarreta riscos potenciais com o uso. Os testes realizados até o momento não cobriram — e não poderiam — cobrir todos os cenários. Para ajudar os desenvolvedores a lidar com esses riscos, criamos o Guia de Uso Responsável.
Para dúvidas comuns, o FAQ pode ser encontrado aqui, que será atualizado ao longo do tempo à medida que surgirem novas dúvidas.