Führen Sie zu Hause große Sprachmodelle im BitTorrent-Stil aus.
Feinabstimmung und Schlussfolgerung bis zu 10x schneller als Offloading
Generieren Sie Text mit Distributed Llama 3.1 (bis zu 405B), Mixtral (8x22B), Falcon (40B+) oder BLOOM (176B) und passen Sie sie für Ihre eigenen Aufgaben an – direkt von Ihrem Desktop-Computer oder Google Colab aus:
from transformers import AutoTokenizer
from petals import AutoDistributedModelForCausalLM
# Choose any model available at https://health.petals.dev
model_name = "meta-llama/Meta-Llama-3.1-405B-Instruct"
# Connect to a distributed network hosting model layers
tokenizer = AutoTokenizer . from_pretrained ( model_name )
model = AutoDistributedModelForCausalLM . from_pretrained ( model_name )
# Run the model as if it were on your computer
inputs = tokenizer ( "A cat sat" , return_tensors = "pt" )[ "input_ids" ]
outputs = model . generate ( inputs , max_new_tokens = 5 )
print ( tokenizer . decode ( outputs [ 0 ])) # A cat sat on a mat...
Probieren Sie es jetzt in Colab aus
? Willst du Lama laufen lassen? Fordern Sie Zugriff auf seine Gewichte an und führen Sie dann huggingface-cli login
im Terminal aus, bevor Sie das Modell laden. Oder probieren Sie es einfach in unserer Chatbot-App aus.
? Privatsphäre. Ihre Daten werden mit Hilfe anderer Personen im öffentlichen Schwarm verarbeitet. Erfahren Sie hier mehr zum Thema Datenschutz. Für sensible Daten können Sie einen privaten Schwarm unter Personen einrichten, denen Sie vertrauen.
Noch Fragen? Pingen Sie uns in unserem Discord!
Petals ist ein von der Community betriebenes System – wir verlassen uns darauf, dass Menschen ihre GPUs teilen. Sie können dabei helfen, eines der verfügbaren Modelle zu betreuen oder ein neues Modell zu hosten? Model Hub!
Als Beispiel sehen Sie hier, wie Sie einen Teil von Llama 3.1 (405B) Instruct auf Ihrer GPU hosten:
? Möchten Sie Lama beherbergen? Fordern Sie Zugriff auf seine Gewichte an und führen Sie dann huggingface-cli login
im Terminal aus, bevor Sie das Modell laden.
? Linux + Anaconda. Führen Sie diese Befehle für NVIDIA-GPUs aus (oder befolgen Sie diese für AMD):
conda install pytorch pytorch-cuda=11.7 -c pytorch -c nvidia
pip install git+https://github.com/bigscience-workshop/petals
python -m petals.cli.run_server meta-llama/Meta-Llama-3.1-405B-Instruct
? Windows + WSL. Folgen Sie dieser Anleitung in unserem Wiki.
? Docker. Führen Sie unser Docker-Image für NVIDIA-GPUs aus (oder folgen Sie diesem für AMD):
sudo docker run -p 31330:31330 --ipc host --gpus all --volume petals-cache:/cache --rm
learningathome/petals:main
python -m petals.cli.run_server --port 31330 meta-llama/Meta-Llama-3.1-405B-Instruct
? macOS + Apple M1/M2 GPU. Installieren Sie Homebrew und führen Sie dann diese Befehle aus:
brew install python
python3 -m pip install git+https://github.com/bigscience-workshop/petals
python3 -m petals.cli.run_server meta-llama/Meta-Llama-3.1-405B-Instruct
Erfahren Sie mehr (wie Sie mehrere GPUs verwenden, den Server beim Booten starten usw.)
Sicherheit. Durch das Hosten eines Servers ist es anderen nicht möglich, benutzerdefinierten Code auf Ihrem Computer auszuführen. Erfahren Sie hier mehr.
Noch Fragen? Pingen Sie uns in unserem Discord!
? Danke schön! Sobald Sie mehr als 10 Blöcke geladen und gehostet haben, können wir als Dankeschön Ihren Namen oder Link auf dem Schwarmmonitor anzeigen. Sie können sie mit --public_name YOUR_NAME
angeben.
Papier lesen Siehe FAQ
Grundlegende Tutorials:
Nützliche Tools:
Erweiterte Anleitungen:
Bitte lesen Sie Abschnitt 3.3 unseres Papiers.
Bitte beachten Sie unsere FAQ zum Mitwirken.
Alexander Borzunov, Dmitry Baranchuk, Tim Dettmers, Max Ryabinin, Younes Belkada, Artem Chumachenko, Pavel Samygin und Colin Raffel. Blütenblätter: Kollaborative Inferenz und Feinabstimmung großer Modelle. Tagungsband der 61. Jahrestagung der Association for Computational Linguistics (Band 3: Systemdemonstrationen). 2023.
@inproceedings { borzunov2023petals ,
title = { Petals: Collaborative Inference and Fine-tuning of Large Models } ,
author = { Borzunov, Alexander and Baranchuk, Dmitry and Dettmers, Tim and Riabinin, Maksim and Belkada, Younes and Chumachenko, Artem and Samygin, Pavel and Raffel, Colin } ,
booktitle = { Proceedings of the 61st Annual Meeting of the Association for Computational Linguistics (Volume 3: System Demonstrations) } ,
pages = { 558--568 } ,
year = { 2023 } ,
url = { https://arxiv.org/abs/2209.01188 }
}
Alexander Borzunov, Max Ryabinin, Artem Chumachenko, Dmitry Baranchuk, Tim Dettmers, Younes Belkada, Pavel Samygin und Colin Raffel. Verteilte Inferenz und Feinabstimmung großer Sprachmodelle über das Internet. Fortschritte in neuronalen Informationsverarbeitungssystemen 36 (2023).
@inproceedings { borzunov2023distributed ,
title = { Distributed inference and fine-tuning of large language models over the {I}nternet } ,
author = { Borzunov, Alexander and Ryabinin, Max and Chumachenko, Artem and Baranchuk, Dmitry and Dettmers, Tim and Belkada, Younes and Samygin, Pavel and Raffel, Colin } ,
booktitle = { Advances in Neural Information Processing Systems } ,
volume = { 36 } ,
pages = { 12312--12331 } ,
year = { 2023 } ,
url = { https://arxiv.org/abs/2312.08361 }
}
Dieses Projekt ist Teil des BigScience-Forschungsworkshops.