Download llama models - download do código-fonte llama models

llama models

Outro código-fonte

Baixar

Modelos de lhama

Llama é um modelo de linguagem grande (LLM) acessível e aberto, projetado para desenvolvedores, pesquisadores e empresas construírem, experimentarem e dimensionarem com responsabilidade suas ideias generativas de IA. Parte de um sistema fundamental, serve como base para a inovação na comunidade global. Alguns aspectos principais:

Acesso aberto : Fácil acessibilidade a grandes modelos de linguagem de ponta, promovendo a colaboração e avanços entre desenvolvedores, pesquisadores e organizações
Amplo ecossistema : os modelos do Llama foram baixados centenas de milhões de vezes, há milhares de projetos comunitários construídos no Llama e o suporte da plataforma é amplo, desde provedores de nuvem até startups - o mundo está construindo com o Llama!
Confiança e segurança : os modelos Llama fazem parte de uma abordagem abrangente de confiança e segurança, lançando modelos e ferramentas projetadas para permitir a colaboração da comunidade e incentivar a padronização do desenvolvimento e uso de ferramentas de confiança e segurança para IA generativa

Nossa missão é capacitar os indivíduos e a indústria por meio desta oportunidade, ao mesmo tempo em que promovemos um ambiente de descoberta e avanços éticos em IA. Os pesos modelo são licenciados para investigadores e entidades comerciais, respeitando os princípios de abertura.

Modelos de lhama

Modelo	Data de lançamento	Tamanhos de modelo	Comprimento do contexto	Tokenizador	Política de uso aceitável	Licença	Cartão Modelo
Lhama 2	18/07/2023	7B, 13B, 70B	4K	Frase	Política de uso	Licença	Cartão Modelo
Lhama 3	18/04/2024	8B, 70B	8K	Baseado em TikToken	Política de uso	Licença	Cartão Modelo
Lhama 3.1	23/07/2024	8B, 70B, 405B	128K	Baseado em TikToken	Política de uso	Licença	Cartão Modelo
Lhama 3.2	25/09/2024	1B, 3B	128K	Baseado em TikToken	Política de uso	Licença	Cartão Modelo
Lhama 3.2-Visão	25/09/2024	11B, 90B	128K	Baseado em TikToken	Política de uso	Licença	Cartão Modelo

Download

Para baixar os pesos do modelo e o tokenizer:

Visite o site da Meta Llama.
Leia e aceite a licença.
Assim que sua solicitação for aprovada, você receberá um URL assinado por e-mail.
Instale a CLI do Llama: pip install llama-stack . ( <- Comece aqui se você já recebeu um e-mail. )
Execute llama model list para mostrar os modelos disponíveis mais recentes e determinar o ID do modelo que deseja baixar. NOTA : Se você quiser versões mais antigas de modelos, execute llama model list --show-all para mostrar todos os modelos Llama disponíveis.
Execute: llama download --source meta --model-id CHOSEN_MODEL_ID
Passe o URL fornecido quando solicitado para iniciar o download.

Lembre-se que os links expiram após 24 horas e uma certa quantidade de downloads. Você sempre pode solicitar um link novamente se começar a ver erros como 403: Forbidden .

Executando os modelos

Você precisa instalar as seguintes dependências (além do requirements.txt no diretório raiz deste repositório) para executar os modelos:

pip install torch fairscale fire blobfile

Depois de instalar as dependências, você pode executar os scripts de exemplo (dentro do subdiretório llama_models/scripts/ ) da seguinte forma:

 #!/bin/bashCHECKPOINT_DIR=~/.llama/checkpoints/Meta-Llama3.1-8B-Instruct
PYTHONPATH=$(git rev-parse --show-toplevel) torchrun llama_models/scripts/example_chat_completion.py $CHECKPOINT_DIR

O script acima deve ser usado com um modelo Instruct (Chat). Para um modelo base, use o script llama_models/scripts/example_text_completion.py . Observe que você pode usar esses scripts com as séries de modelos Llama3 e Llama3.1.

Para executar modelos maiores com paralelismo tensorial, você deve modificar como:

 #!/bin/bashNGPUS=8
PYTHONPATH=$(git rev-parse --show-toplevel) torchrun
   --nproc_per_node=$NGPUS
   llama_models/scripts/example_chat_completion.py $CHECKPOINT_DIR
   --model_parallel_size $NGPUS

Para obter mais flexibilidade na execução de inferência (incluindo execução de inferência FP8), consulte o repositório Llama Stack .

Acesso ao abraço facial

Também fornecemos downloads no Hugging Face, nos formatos transformers e nativo llama3 . Para baixar os pesos do Hugging Face, siga estas etapas:

Visite um dos repositórios, por exemplo metal-llama/Meta-Llama-3.1-8B-Instruct.
Leia e aceite a licença. Assim que sua solicitação for aprovada, você terá acesso a todos os modelos do Llama 3.1, bem como às versões anteriores. Observe que as solicitações costumavam levar até uma hora para serem processadas.
Para baixar os pesos nativos originais para usar com este repositório, clique na aba “Arquivos e versões” e baixe o conteúdo da pasta original . Você também pode baixá-los da linha de comando se pip install huggingface-hub :

 huggingface-cli baixar meta-llama/Meta-Llama-3.1-8B-Instruct --include "original/*" --local-dir meta-llama/Meta-Llama-3.1-8B-Instruct

NOTA Os pesos nativos originais de metal-llama/Meta-Llama-3.1-405B não estariam disponíveis através deste repositório HugginFace.

Para usar com transformadores, o seguinte snippet de pipeline fará download e armazenará em cache os pesos:

 importar transformersimport torchmodel_id = "meta-llama/Meta-Llama-3.1-8B-Instruct"pipeline = transformers.pipeline( "geração de texto", model="meta-llama/Meta-Llama-3.1-8B-Instruct", model_kwargs ={"torch_dtype": torch.bfloat16}, dispositivo="cuda",
)

Instalações

Você pode instalar este repositório como um pacote apenas fazendo pip install llama-models

Uso Responsável

Os modelos Llama são uma nova tecnologia que acarreta riscos potenciais com o uso. Os testes realizados até o momento não cobriram — e não poderiam — cobrir todos os cenários. Para ajudar os desenvolvedores a lidar com esses riscos, criamos o Guia de Uso Responsável.