Unduh petals - pengunduhan kode sumber petals

petals

Kode Sumber AI

v2.2.0:

Unduh

Jalankan model bahasa besar di rumah, bergaya BitTorrent.
Penyempurnaan dan inferensi hingga 10x lebih cepat dibandingkan pembongkaran

Hasilkan teks dengan Llama 3.1 (hingga 405B), Mixtral (8x22B), Falcon (40B+) atau BLOOM (176B) yang terdistribusi dan sesuaikan untuk tugas Anda sendiri — langsung dari komputer desktop atau Google Colab:

 from transformers import AutoTokenizer
from petals import AutoDistributedModelForCausalLM

# Choose any model available at https://health.petals.dev
model_name = "meta-llama/Meta-Llama-3.1-405B-Instruct"

# Connect to a distributed network hosting model layers
tokenizer = AutoTokenizer . from_pretrained ( model_name )
model = AutoDistributedModelForCausalLM . from_pretrained ( model_name )

# Run the model as if it were on your computer
inputs = tokenizer ( "A cat sat" , return_tensors = "pt" )[ "input_ids" ]
outputs = model . generate ( inputs , max_new_tokens = 5 )
print ( tokenizer . decode ( outputs [ 0 ]))  # A cat sat on a mat...

Coba sekarang di Colab

? Ingin menjalankan Llama? Minta akses ke bobotnya, lalu jalankan huggingface-cli login di terminal sebelum memuat model. Atau coba saja di aplikasi chatbot kami.

? Pribadi. Data Anda akan diproses dengan bantuan orang lain di kerumunan publik. Pelajari lebih lanjut tentang privasi di sini. Untuk data sensitif, Anda dapat menyiapkan kelompok pribadi di antara orang-orang yang Anda percayai.

Ada pertanyaan? Ping kami di Discord kami!

Hubungkan GPU Anda dan tingkatkan kapasitas Petal

Petals adalah sistem yang dijalankan komunitas — kami mengandalkan orang-orang yang berbagi GPU mereka. Anda dapat membantu menyajikan salah satu model yang tersedia atau menghosting model baru dari ? Pusat Model!

Sebagai contoh, berikut adalah cara menghosting bagian dari Instruksi Llama 3.1 (405B) di GPU Anda:

? Ingin menjadi tuan rumah bagi Llama? Minta akses ke bobotnya, lalu jalankan huggingface-cli login di terminal sebelum memuat model.

? Linux + Anaconda. Jalankan perintah ini untuk GPU NVIDIA (atau ikuti ini untuk AMD):

conda install pytorch pytorch-cuda=11.7 -c pytorch -c nvidia
pip install git+https://github.com/bigscience-workshop/petals
python -m petals.cli.run_server meta-llama/Meta-Llama-3.1-405B-Instruct

? Windows + WSL. Ikuti panduan ini di Wiki kami.

? Buruh pelabuhan. Jalankan image Docker kami untuk GPU NVIDIA (atau ikuti ini untuk AMD):

sudo docker run -p 31330:31330 --ipc host --gpus all --volume petals-cache:/cache --rm 
    learningathome/petals:main 
    python -m petals.cli.run_server --port 31330 meta-llama/Meta-Llama-3.1-405B-Instruct

? macOS + GPU Apple M1/M2. Instal Homebrew, lalu jalankan perintah ini:

brew install python
python3 -m pip install git+https://github.com/bigscience-workshop/petals
python3 -m petals.cli.run_server meta-llama/Meta-Llama-3.1-405B-Instruct

Pelajari lebih lanjut (cara menggunakan beberapa GPU, memulai server saat boot, dll.)

Keamanan. Hosting server tidak mengizinkan orang lain menjalankan kode khusus di komputer Anda. Pelajari lebih lanjut di sini.

Ada pertanyaan? Ping kami di Discord kami!

? Terima kasih! Setelah Anda memuat dan menghosting 10+ blok, kami dapat menampilkan nama atau tautan Anda di monitor gerombolan sebagai cara untuk mengucapkan terima kasih. Anda dapat menentukannya dengan --public_name YOUR_NAME .

Bagaimana cara kerjanya?

Anda memuat sebagian kecil model, lalu bergabung dengan jaringan orang yang melayani bagian lainnya. Inferensi batch tunggal berjalan hingga 6 token/dtk untuk Llama 2 (70B) dan hingga 4 token/dtk untuk Falcon (180B) — cukup untuk chatbot dan aplikasi interaktif.
Anda dapat menggunakan metode penyesuaian dan pengambilan sampel apa pun, menjalankan jalur khusus melalui model, atau melihat status tersembunyinya. Anda mendapatkan kenyamanan API dengan fleksibilitas PyTorch dan ? Transformer .

Baca makalah Lihat FAQ

Tutorial, contoh, dan banyak lagi

Tutorial dasar:

Memulai: tutorial
Sesuaikan Llama-65B untuk klasifikasi semantik teks: tutorial
Segera sesuaikan BLOOM untuk membuat chatbot yang dipersonifikasikan: tutorial

Alat yang berguna:

Aplikasi web Chatbot (terhubung ke Petals melalui titik akhir HTTP/WebSocket): kode sumber
Pantau gerombolan publik: kode sumber

Panduan lanjutan:

Luncurkan gerombolan pribadi: panduan
Jalankan model khusus: panduan

Tolok ukur

Silakan lihat Bagian 3.3 makalah kami.

Berkontribusi

Silakan lihat FAQ kami tentang berkontribusi.

Kutipan

Alexander Borzunov, Dmitry Baranchuk, Tim Dettmers, Max Ryabinin, Younes Belkada, Artem Chumachenko, Pavel Samygin, dan Colin Raffel. Kelopak: Inferensi Kolaboratif dan Penyempurnaan Model Besar. Prosiding Pertemuan Tahunan ke-61 Asosiasi Linguistik Komputasi (Volume 3: Demonstrasi Sistem). 2023.

 @inproceedings { borzunov2023petals ,
  title = { Petals: Collaborative Inference and Fine-tuning of Large Models } ,
  author = { Borzunov, Alexander and Baranchuk, Dmitry and Dettmers, Tim and Riabinin, Maksim and Belkada, Younes and Chumachenko, Artem and Samygin, Pavel and Raffel, Colin } ,
  booktitle = { Proceedings of the 61st Annual Meeting of the Association for Computational Linguistics (Volume 3: System Demonstrations) } ,
  pages = { 558--568 } ,
  year = { 2023 } ,
  url = { https://arxiv.org/abs/2209.01188 }
}

Alexander Borzunov, Max Ryabinin, Artem Chumachenko, Dmitry Baranchuk, Tim Dettmers, Younes Belkada, Pavel Samygin, dan Colin Raffel. Inferensi terdistribusi dan penyesuaian model bahasa besar melalui Internet. Kemajuan Sistem Pemrosesan Informasi Neural 36 (2023).

 @inproceedings { borzunov2023distributed ,
  title = { Distributed inference and fine-tuning of large language models over the {I}nternet } ,
  author = { Borzunov, Alexander and Ryabinin, Max and Chumachenko, Artem and Baranchuk, Dmitry and Dettmers, Tim and Belkada, Younes and Samygin, Pavel and Raffel, Colin } ,
  booktitle = { Advances in Neural Information Processing Systems } ,
  volume = { 36 } ,
  pages = { 12312--12331 } ,
  year = { 2023 } ,
  url = { https://arxiv.org/abs/2312.08361 }
}