Obrigado por desenvolver com modelos de lhama. Como parte do lançamento do LLAMA 3.1, consolidamos os repositórios do GitHub e adicionamos alguns repositórios adicionais, pois expandimos a funcionalidade de Llama a ser uma pilha de llama e2e. Por favor, use os seguintes repositórios daqui para frente:
Se você tiver alguma dúvida, sinta -se à vontade para apresentar um problema em qualquer um dos repositórios acima e faremos o possível para responder em tempo hábil.
Obrigado!
Estamos desbloqueando o poder de grandes modelos de linguagem. O LLAMA 2 agora é acessível a indivíduos, criadores, pesquisadores e empresas de todos os tamanhos, para que possam experimentar, inovar e escalar suas idéias com responsabilidade.
Esta versão inclui pesos do modelo e código inicial para modelos de linguagem de llama pré-treinados e ajustados-variando de parâmetros de 7b a 70b.
Este repositório pretende ser um exemplo mínimo para carregar modelos LLAMA 2 e executar a inferência. Para exemplos mais detalhados que aproveitam o rosto abraçando, consulte Recipes de Llama.
Consulte atualizações.md. Também para uma lista em execução de perguntas frequentes, consulte aqui.
Para baixar os pesos e o tokenizador do modelo, visite o site Meta e aceite nossa licença.
Depois que sua solicitação for aprovada, você receberá um URL assinado por e -mail. Em seguida, execute o script download.sh, passando o URL fornecido quando solicitado a iniciar o download.
Pré-requisitos: verifique se você tem wget
e md5sum
instalados. Em seguida, execute o script: ./download.sh
.
Lembre -se de que os links expiram após 24 horas e uma certa quantidade de downloads. Se você começar a ver erros como 403: Forbidden
, sempre poderá re-recordar um link.
Também estamos fornecendo downloads no rosto de abraçar. Você pode solicitar acesso aos modelos reconhecendo a licença e preenchendo o formulário no cartão de modelo de um repositório. Depois de fazer isso, você deve ter acesso a todos os modelos de llama de uma versão (Code Llama, Llama 2 ou Llama Guard) em 1 hora.
Você pode seguir as etapas abaixo para subir e correr rapidamente com os modelos LLAMA 2. Essas etapas permitirão que você execute uma inferência rápida localmente. Para mais exemplos, consulte o repositório de receitas Llama 2.
Em um Clone disponível com Pytorch / Cuda e baixe este repositório.
Na execução do diretório de nível superior:
pip install -e .
Visite o site Meta e registre -se para baixar os modelos.
Depois de registrado, você receberá um email com um URL para baixar os modelos. Você precisará deste URL quando executar o script Download.sh.
Depois de receber o email, navegue para o seu repositório de llama baixado e execute o script Download.sh.
Depois que os modelos que você deseja forem baixados, você pode executar o modelo localmente usando o comando abaixo:
torchrun --nproc_per_node 1 example_chat_completion.py
--ckpt_dir llama-2-7b-chat/
--tokenizer_path tokenizer.model
--max_seq_len 512 --max_batch_size 6
Observação
llama-2-7b-chat/
pelo caminho para o seu diretório de ponto de verificação e tokenizer.model
pelo caminho para o seu modelo Tokenizer.–nproc_per_node
deve ser definido como o valor MP para o modelo que você está usando.max_seq_len
e max_batch_size
conforme necessário.Modelos diferentes requerem valores diferentes de paralelo modelo (MP):
Modelo | MP |
---|---|
7b | 1 |
13b | 2 |
70B | 8 |
Todos os modelos suportam comprimento da sequência de até 4096 tokens, mas pré-allocamos o cache de acordo com os valores max_seq_len
e max_batch_size
. Portanto, defina -os de acordo com o seu hardware.
Esses modelos não são finetunados para bate -papo ou perguntas e respostas. Eles devem ser solicitados para que a resposta esperada seja a continuação natural do prompt.
Consulte example_text_completion.py
para alguns exemplos. Para ilustrar, consulte o comando abaixo para executá-lo com o modelo LLAMA-2-7B ( nproc_per_node
precisa ser definido para o valor MP
):
torchrun --nproc_per_node 1 example_text_completion.py
--ckpt_dir llama-2-7b/
--tokenizer_path tokenizer.model
--max_seq_len 128 --max_batch_size 4
Os modelos ajustados foram treinados para aplicações de diálogo. Para obter as características e o desempenho esperados, uma formatação específica definida no chat_completion
precisa ser seguida, incluindo as tags INST
e <<SYS>>
, BOS
e Tokens EOS
e os espaços de branco e as linhas de quebra (Recomendamos chamar strip()
nas entradas para evitar espaços duplos).
Você também pode implantar classificadores adicionais para filtrar entradas e saídas que são consideradas inseguras. Consulte o repositório de Recipes LLAMA para um exemplo de como adicionar um verificador de segurança às entradas e saídas do seu código de inferência.
Exemplos usando llama-2-7b-chat:
torchrun --nproc_per_node 1 example_chat_completion.py
--ckpt_dir llama-2-7b-chat/
--tokenizer_path tokenizer.model
--max_seq_len 512 --max_batch_size 6
O LLAMA 2 é uma nova tecnologia que carrega riscos potenciais com uso. Os testes realizados até o momento não foram - e não poderiam - cobrir todos os cenários. Para ajudar os desenvolvedores a abordar esses riscos, criamos o Guia de Uso Responsável. Mais detalhes também podem ser encontrados em nosso trabalho de pesquisa.
Por favor, relate qualquer software "bug" ou outros problemas com os modelos por um dos seguintes meios:
Veja Model_Card.MD.
Nosso modelo e pesos são licenciados para pesquisadores e entidades comerciais, mantendo os princípios da abertura. Nossa missão é capacitar os indivíduos e a indústria por meio dessa oportunidade, enquanto promove um ambiente de descoberta e avanços éticos da IA.
Veja o arquivo de licença, bem como nossa política de uso aceitável que acompanha
Para perguntas comuns, as perguntas frequentes podem ser encontradas aqui, que serão mantidas atualizadas ao longo do tempo à medida que surgem novas perguntas.
O repositório do lançamento original da llama está na filial llama_v1
.