Download llama - download do código -fonte llama

llama

Outro código-fonte

Baixar

Nota de depreciação

Obrigado por desenvolver com modelos de lhama. Como parte do lançamento do LLAMA 3.1, consolidamos os repositórios do GitHub e adicionamos alguns repositórios adicionais, pois expandimos a funcionalidade de Llama a ser uma pilha de llama e2e. Por favor, use os seguintes repositórios daqui para frente:

Modelos de lhama - repositório central para os modelos de fundação, incluindo utilitários básicos, cartões de modelo, licença e políticas de uso
Purplellama - Componente -chave da pilha de lhama, com foco em riscos de segurança e mitigações de tempo de inferência
LLAMA-TOOLCHAIN-Desenvolvimento de modelos (interfaces de inferência/ajuste fino/segurança/geração de dados sintéticos) e implementações canônicas
Sistema de Sistema Agentico-E2E Sistema de pilha de llama independente, juntamente com a interface subjacente opinativa, que permite a criação de aplicações agênticas
Recipes de lhama - scripts e integrações orientados para a comunidade

Se você tiver alguma dúvida, sinta -se à vontade para apresentar um problema em qualquer um dos repositórios acima e faremos o possível para responder em tempo hábil.

Obrigado!

(Depreciado) Llama 2

Estamos desbloqueando o poder de grandes modelos de linguagem. O LLAMA 2 agora é acessível a indivíduos, criadores, pesquisadores e empresas de todos os tamanhos, para que possam experimentar, inovar e escalar suas idéias com responsabilidade.

Esta versão inclui pesos do modelo e código inicial para modelos de linguagem de llama pré-treinados e ajustados-variando de parâmetros de 7b a 70b.

Este repositório pretende ser um exemplo mínimo para carregar modelos LLAMA 2 e executar a inferência. Para exemplos mais detalhados que aproveitam o rosto abraçando, consulte Recipes de Llama.

Atualiza pós-lançamento

Consulte atualizações.md. Também para uma lista em execução de perguntas frequentes, consulte aqui.

Download

Para baixar os pesos e o tokenizador do modelo, visite o site Meta e aceite nossa licença.

Depois que sua solicitação for aprovada, você receberá um URL assinado por e -mail. Em seguida, execute o script download.sh, passando o URL fornecido quando solicitado a iniciar o download.

Pré-requisitos: verifique se você tem wget e md5sum instalados. Em seguida, execute o script: ./download.sh .

Lembre -se de que os links expiram após 24 horas e uma certa quantidade de downloads. Se você começar a ver erros como 403: Forbidden , sempre poderá re-recordar um link.

Acesso a um rosto abraçado

Também estamos fornecendo downloads no rosto de abraçar. Você pode solicitar acesso aos modelos reconhecendo a licença e preenchendo o formulário no cartão de modelo de um repositório. Depois de fazer isso, você deve ter acesso a todos os modelos de llama de uma versão (Code Llama, Llama 2 ou Llama Guard) em 1 hora.

Início rápido

Você pode seguir as etapas abaixo para subir e correr rapidamente com os modelos LLAMA 2. Essas etapas permitirão que você execute uma inferência rápida localmente. Para mais exemplos, consulte o repositório de receitas Llama 2.

Em um Clone disponível com Pytorch / Cuda e baixe este repositório.
Na execução do diretório de nível superior:
```
pip install -e .
```
Visite o site Meta e registre -se para baixar os modelos.
Depois de registrado, você receberá um email com um URL para baixar os modelos. Você precisará deste URL quando executar o script Download.sh.
Depois de receber o email, navegue para o seu repositório de llama baixado e execute o script Download.sh.
- Certifique -se de conceder permissões de execução ao script download.sh
- Durante esse processo, você será solicitado a entrar no URL a partir do email.
- Não use a opção "Copiar link", mas certifique -se de copiar manualmente o link do email.
Depois que os modelos que você deseja forem baixados, você pode executar o modelo localmente usando o comando abaixo:

torchrun --nproc_per_node 1 example_chat_completion.py 
    --ckpt_dir llama-2-7b-chat/ 
    --tokenizer_path tokenizer.model 
    --max_seq_len 512 --max_batch_size 6

Observação

Substitua llama-2-7b-chat/ pelo caminho para o seu diretório de ponto de verificação e tokenizer.model pelo caminho para o seu modelo Tokenizer.
O –nproc_per_node deve ser definido como o valor MP para o modelo que você está usando.
Ajuste os parâmetros max_seq_len e max_batch_size conforme necessário.
Este exemplo é executado o Exemplo_chat_completion.py encontrado neste repositório, mas você pode alterá -lo para um arquivo .py diferente.

Inferência

Modelos diferentes requerem valores diferentes de paralelo modelo (MP):

Modelo	MP
7b	1
13b	2
70B	8

Todos os modelos suportam comprimento da sequência de até 4096 tokens, mas pré-allocamos o cache de acordo com os valores max_seq_len e max_batch_size . Portanto, defina -os de acordo com o seu hardware.

Modelos pré -terem sido pretados

Esses modelos não são finetunados para bate -papo ou perguntas e respostas. Eles devem ser solicitados para que a resposta esperada seja a continuação natural do prompt.

Consulte example_text_completion.py para alguns exemplos. Para ilustrar, consulte o comando abaixo para executá-lo com o modelo LLAMA-2-7B ( nproc_per_node precisa ser definido para o valor MP ):

 torchrun --nproc_per_node 1 example_text_completion.py 
    --ckpt_dir llama-2-7b/ 
    --tokenizer_path tokenizer.model 
    --max_seq_len 128 --max_batch_size 4

Modelos de bate-papo ajustados

Os modelos ajustados foram treinados para aplicações de diálogo. Para obter as características e o desempenho esperados, uma formatação específica definida no chat_completion precisa ser seguida, incluindo as tags INST e <<SYS>> , BOS e Tokens EOS e os espaços de branco e as linhas de quebra (Recomendamos chamar strip() nas entradas para evitar espaços duplos).

Você também pode implantar classificadores adicionais para filtrar entradas e saídas que são consideradas inseguras. Consulte o repositório de Recipes LLAMA para um exemplo de como adicionar um verificador de segurança às entradas e saídas do seu código de inferência.

Exemplos usando llama-2-7b-chat:

 torchrun --nproc_per_node 1 example_chat_completion.py 
    --ckpt_dir llama-2-7b-chat/ 
    --tokenizer_path tokenizer.model 
    --max_seq_len 512 --max_batch_size 6

O LLAMA 2 é uma nova tecnologia que carrega riscos potenciais com uso. Os testes realizados até o momento não foram - e não poderiam - cobrir todos os cenários. Para ajudar os desenvolvedores a abordar esses riscos, criamos o Guia de Uso Responsável. Mais detalhes também podem ser encontrados em nosso trabalho de pesquisa.

Problemas

Por favor, relate qualquer software "bug" ou outros problemas com os modelos por um dos seguintes meios:

Problemas de relatório com o modelo: github.com/facebookresearch/llama
Relatando conteúdo de risco gerado pelo modelo: desenvolvedores.facebook.com/llama_output_feedback
Relatórios de bugs e preocupações de segurança: facebook.com/whitehat/info

Cartão modelo

Veja Model_Card.MD.

Licença

Nosso modelo e pesos são licenciados para pesquisadores e entidades comerciais, mantendo os princípios da abertura. Nossa missão é capacitar os indivíduos e a indústria por meio dessa oportunidade, enquanto promove um ambiente de descoberta e avanços éticos da IA.

Veja o arquivo de licença, bem como nossa política de uso aceitável que acompanha

Referências

Trabalho de pesquisa
LLAMA 2 Visão geral técnica
Comunidade de pesquisa de IA de inovação aberta

Para perguntas comuns, as perguntas frequentes podem ser encontradas aqui, que serão mantidas atualizadas ao longo do tempo à medida que surgem novas perguntas.