petals herunterladen - petals Quellcode herunterladen

petals

AI-Quellcode

v2.2.0:

Herunterladen

Führen Sie zu Hause große Sprachmodelle im BitTorrent-Stil aus.
Feinabstimmung und Schlussfolgerung bis zu 10x schneller als Offloading

Generieren Sie Text mit Distributed Llama 3.1 (bis zu 405B), Mixtral (8x22B), Falcon (40B+) oder BLOOM (176B) und passen Sie sie für Ihre eigenen Aufgaben an – direkt von Ihrem Desktop-Computer oder Google Colab aus:

 from transformers import AutoTokenizer
from petals import AutoDistributedModelForCausalLM

# Choose any model available at https://health.petals.dev
model_name = "meta-llama/Meta-Llama-3.1-405B-Instruct"

# Connect to a distributed network hosting model layers
tokenizer = AutoTokenizer . from_pretrained ( model_name )
model = AutoDistributedModelForCausalLM . from_pretrained ( model_name )

# Run the model as if it were on your computer
inputs = tokenizer ( "A cat sat" , return_tensors = "pt" )[ "input_ids" ]
outputs = model . generate ( inputs , max_new_tokens = 5 )
print ( tokenizer . decode ( outputs [ 0 ]))  # A cat sat on a mat...

Probieren Sie es jetzt in Colab aus

? Willst du Lama laufen lassen? Fordern Sie Zugriff auf seine Gewichte an und führen Sie dann huggingface-cli login im Terminal aus, bevor Sie das Modell laden. Oder probieren Sie es einfach in unserer Chatbot-App aus.

? Privatsphäre. Ihre Daten werden mit Hilfe anderer Personen im öffentlichen Schwarm verarbeitet. Erfahren Sie hier mehr zum Thema Datenschutz. Für sensible Daten können Sie einen privaten Schwarm unter Personen einrichten, denen Sie vertrauen.

Noch Fragen? Pingen Sie uns in unserem Discord!

Schließen Sie Ihre GPU an und erhöhen Sie die Petals-Kapazität

Petals ist ein von der Community betriebenes System – wir verlassen uns darauf, dass Menschen ihre GPUs teilen. Sie können dabei helfen, eines der verfügbaren Modelle zu betreuen oder ein neues Modell zu hosten? Model Hub!

Als Beispiel sehen Sie hier, wie Sie einen Teil von Llama 3.1 (405B) Instruct auf Ihrer GPU hosten:

? Möchten Sie Lama beherbergen? Fordern Sie Zugriff auf seine Gewichte an und führen Sie dann huggingface-cli login im Terminal aus, bevor Sie das Modell laden.

? Linux + Anaconda. Führen Sie diese Befehle für NVIDIA-GPUs aus (oder befolgen Sie diese für AMD):

conda install pytorch pytorch-cuda=11.7 -c pytorch -c nvidia
pip install git+https://github.com/bigscience-workshop/petals
python -m petals.cli.run_server meta-llama/Meta-Llama-3.1-405B-Instruct

? Windows + WSL. Folgen Sie dieser Anleitung in unserem Wiki.

? Docker. Führen Sie unser Docker-Image für NVIDIA-GPUs aus (oder folgen Sie diesem für AMD):

sudo docker run -p 31330:31330 --ipc host --gpus all --volume petals-cache:/cache --rm 
    learningathome/petals:main 
    python -m petals.cli.run_server --port 31330 meta-llama/Meta-Llama-3.1-405B-Instruct

? macOS + Apple M1/M2 GPU. Installieren Sie Homebrew und führen Sie dann diese Befehle aus:

brew install python
python3 -m pip install git+https://github.com/bigscience-workshop/petals
python3 -m petals.cli.run_server meta-llama/Meta-Llama-3.1-405B-Instruct

Erfahren Sie mehr (wie Sie mehrere GPUs verwenden, den Server beim Booten starten usw.)

Sicherheit. Durch das Hosten eines Servers ist es anderen nicht möglich, benutzerdefinierten Code auf Ihrem Computer auszuführen. Erfahren Sie hier mehr.

Noch Fragen? Pingen Sie uns in unserem Discord!

? Danke schön! Sobald Sie mehr als 10 Blöcke geladen und gehostet haben, können wir als Dankeschön Ihren Namen oder Link auf dem Schwarmmonitor anzeigen. Sie können sie mit --public_name YOUR_NAME angeben.

Wie funktioniert es?

Sie laden einen kleinen Teil des Modells und schließen sich dann einem Netzwerk von Personen an, die die anderen Teile bedienen. Die Single-Batch-Inferenz läuft mit bis zu 6 Token/Sek. für Llama 2 (70B) und bis zu 4 Token/Sek. für Falcon (180B) – genug für Chatbots und interaktive Apps.
Sie können beliebige Feinabstimmungs- und Sampling-Methoden anwenden, benutzerdefinierte Pfade durch das Modell ausführen oder seine verborgenen Zustände anzeigen. Sie erhalten den Komfort einer API mit der Flexibilität von PyTorch und ? Transformatoren .

Papier lesen Siehe FAQ

Tutorials, Beispiele und mehr

Grundlegende Tutorials:

Erste Schritte: Tutorial
Prompt-Tuning von Llama-65B für die semantische Textklassifizierung: Tutorial
Passen Sie BLOOM umgehend an, um einen personalisierten Chatbot zu erstellen: Tutorial

Nützliche Tools:

Chatbot-Web-App (stellt über einen HTTP/WebSocket-Endpunkt eine Verbindung zu Petals her): Quellcode
Überwachen Sie den öffentlichen Schwarm: Quellcode

Erweiterte Anleitungen:

Starten Sie einen privaten Schwarm: Anleitung
Führen Sie ein benutzerdefiniertes Modell aus: Anleitung

Benchmarks

Bitte lesen Sie Abschnitt 3.3 unseres Papiers.

Mitwirken

Bitte beachten Sie unsere FAQ zum Mitwirken.

Zitate

Alexander Borzunov, Dmitry Baranchuk, Tim Dettmers, Max Ryabinin, Younes Belkada, Artem Chumachenko, Pavel Samygin und Colin Raffel. Blütenblätter: Kollaborative Inferenz und Feinabstimmung großer Modelle. Tagungsband der 61. Jahrestagung der Association for Computational Linguistics (Band 3: Systemdemonstrationen). 2023.

 @inproceedings { borzunov2023petals ,
  title = { Petals: Collaborative Inference and Fine-tuning of Large Models } ,
  author = { Borzunov, Alexander and Baranchuk, Dmitry and Dettmers, Tim and Riabinin, Maksim and Belkada, Younes and Chumachenko, Artem and Samygin, Pavel and Raffel, Colin } ,
  booktitle = { Proceedings of the 61st Annual Meeting of the Association for Computational Linguistics (Volume 3: System Demonstrations) } ,
  pages = { 558--568 } ,
  year = { 2023 } ,
  url = { https://arxiv.org/abs/2209.01188 }
}

Alexander Borzunov, Max Ryabinin, Artem Chumachenko, Dmitry Baranchuk, Tim Dettmers, Younes Belkada, Pavel Samygin und Colin Raffel. Verteilte Inferenz und Feinabstimmung großer Sprachmodelle über das Internet. Fortschritte in neuronalen Informationsverarbeitungssystemen 36 (2023).

 @inproceedings { borzunov2023distributed ,
  title = { Distributed inference and fine-tuning of large language models over the {I}nternet } ,
  author = { Borzunov, Alexander and Ryabinin, Max and Chumachenko, Artem and Baranchuk, Dmitry and Dettmers, Tim and Belkada, Younes and Samygin, Pavel and Raffel, Colin } ,
  booktitle = { Advances in Neural Information Processing Systems } ,
  volume = { 36 } ,
  pages = { 12312--12331 } ,
  year = { 2023 } ,
  url = { https://arxiv.org/abs/2312.08361 }
}