Execute grandes modelos de linguagem em casa, no estilo BitTorrent.
Ajuste fino e inferência até 10x mais rápido que o descarregamento
Gere texto com Llama 3.1 distribuído (até 405B), Mixtral (8x22B), Falcon (40B+) ou BLOOM (176B) e ajuste-os para suas próprias tarefas — diretamente do seu computador desktop ou do Google Colab:
from transformers import AutoTokenizer
from petals import AutoDistributedModelForCausalLM
# Choose any model available at https://health.petals.dev
model_name = "meta-llama/Meta-Llama-3.1-405B-Instruct"
# Connect to a distributed network hosting model layers
tokenizer = AutoTokenizer . from_pretrained ( model_name )
model = AutoDistributedModelForCausalLM . from_pretrained ( model_name )
# Run the model as if it were on your computer
inputs = tokenizer ( "A cat sat" , return_tensors = "pt" )[ "input_ids" ]
outputs = model . generate ( inputs , max_new_tokens = 5 )
print ( tokenizer . decode ( outputs [ 0 ])) # A cat sat on a mat...
Experimente agora no Colab
? Quer administrar o Llama? Solicite acesso aos seus pesos e execute huggingface-cli login
no terminal antes de carregar o modelo. Ou apenas experimente em nosso aplicativo chatbot.
? Privacidade. Seus dados serão processados com a ajuda de outras pessoas do enxame público. Saiba mais sobre privacidade aqui. Para dados confidenciais, você pode configurar um enxame privado entre pessoas em quem você confia.
Alguma dúvida? Envie-nos um ping em nosso Discord!
Petals é um sistema administrado pela comunidade – contamos com pessoas que compartilham suas GPUs. Você pode ajudar servindo um dos modelos disponíveis ou hospedar um novo modelo em ? Centro Modelo!
Por exemplo, aqui está como hospedar uma parte do Llama 3.1 (405B) Instruct em sua GPU:
? Quer hospedar o Lhama? Solicite acesso aos seus pesos e execute huggingface-cli login
no terminal antes de carregar o modelo.
? Linux + Anaconda. Execute estes comandos para GPUs NVIDIA (ou siga isto para AMD):
conda install pytorch pytorch-cuda=11.7 -c pytorch -c nvidia
pip install git+https://github.com/bigscience-workshop/petals
python -m petals.cli.run_server meta-llama/Meta-Llama-3.1-405B-Instruct
? Windows + WSL. Siga este guia em nosso Wiki.
? Docker. Execute nossa imagem Docker para GPUs NVIDIA (ou siga isto para AMD):
sudo docker run -p 31330:31330 --ipc host --gpus all --volume petals-cache:/cache --rm
learningathome/petals:main
python -m petals.cli.run_server --port 31330 meta-llama/Meta-Llama-3.1-405B-Instruct
? macOS + GPU Apple M1/M2. Instale o Homebrew e execute estes comandos:
brew install python
python3 -m pip install git+https://github.com/bigscience-workshop/petals
python3 -m petals.cli.run_server meta-llama/Meta-Llama-3.1-405B-Instruct
Saiba mais (como usar várias GPUs, iniciar o servidor na inicialização, etc.)
Segurança. Hospedar um servidor não permite que outras pessoas executem código personalizado em seu computador. Saiba mais aqui.
Alguma dúvida? Envie-nos um ping em nosso Discord!
? Obrigado! Depois de carregar e hospedar mais de 10 blocos, podemos mostrar seu nome ou link no monitor de enxame como forma de agradecimento. Você pode especificá-los com --public_name YOUR_NAME
.
Leia o artigo Veja FAQ
Tutoriais básicos:
Ferramentas úteis:
Guias avançados:
Por favor, consulte a Seção 3.3 do nosso artigo.
Consulte nosso FAQ sobre como contribuir.
Alexander Borzunov, Dmitry Baranchuk, Tim Dettmers, Max Ryabinin, Younes Belkada, Artem Chumachenko, Pavel Samygin e Colin Raffel. Pétalas: Inferência Colaborativa e Ajuste Fino de Grandes Modelos. Anais da 61ª Reunião Anual da Association for Computational Linguistics (Volume 3: Demonstrações do Sistema). 2023.
@inproceedings { borzunov2023petals ,
title = { Petals: Collaborative Inference and Fine-tuning of Large Models } ,
author = { Borzunov, Alexander and Baranchuk, Dmitry and Dettmers, Tim and Riabinin, Maksim and Belkada, Younes and Chumachenko, Artem and Samygin, Pavel and Raffel, Colin } ,
booktitle = { Proceedings of the 61st Annual Meeting of the Association for Computational Linguistics (Volume 3: System Demonstrations) } ,
pages = { 558--568 } ,
year = { 2023 } ,
url = { https://arxiv.org/abs/2209.01188 }
}
Alexander Borzunov, Max Ryabinin, Artem Chumachenko, Dmitry Baranchuk, Tim Dettmers, Younes Belkada, Pavel Samygin e Colin Raffel. Inferência distribuída e ajuste fino de grandes modelos de linguagem pela Internet. Avanços em Sistemas de Processamento de Informação Neural 36 (2023).
@inproceedings { borzunov2023distributed ,
title = { Distributed inference and fine-tuning of large language models over the {I}nternet } ,
author = { Borzunov, Alexander and Ryabinin, Max and Chumachenko, Artem and Baranchuk, Dmitry and Dettmers, Tim and Belkada, Younes and Samygin, Pavel and Raffel, Colin } ,
booktitle = { Advances in Neural Information Processing Systems } ,
volume = { 36 } ,
pages = { 12312--12331 } ,
year = { 2023 } ,
url = { https://arxiv.org/abs/2312.08361 }
}
Este projeto faz parte do workshop de pesquisa BigScience.