Jalankan model bahasa besar di rumah, bergaya BitTorrent.
Penyempurnaan dan inferensi hingga 10x lebih cepat dibandingkan pembongkaran
Hasilkan teks dengan Llama 3.1 (hingga 405B), Mixtral (8x22B), Falcon (40B+) atau BLOOM (176B) yang terdistribusi dan sesuaikan untuk tugas Anda sendiri — langsung dari komputer desktop atau Google Colab:
from transformers import AutoTokenizer
from petals import AutoDistributedModelForCausalLM
# Choose any model available at https://health.petals.dev
model_name = "meta-llama/Meta-Llama-3.1-405B-Instruct"
# Connect to a distributed network hosting model layers
tokenizer = AutoTokenizer . from_pretrained ( model_name )
model = AutoDistributedModelForCausalLM . from_pretrained ( model_name )
# Run the model as if it were on your computer
inputs = tokenizer ( "A cat sat" , return_tensors = "pt" )[ "input_ids" ]
outputs = model . generate ( inputs , max_new_tokens = 5 )
print ( tokenizer . decode ( outputs [ 0 ])) # A cat sat on a mat...
Coba sekarang di Colab
? Ingin menjalankan Llama? Minta akses ke bobotnya, lalu jalankan huggingface-cli login
di terminal sebelum memuat model. Atau coba saja di aplikasi chatbot kami.
? Pribadi. Data Anda akan diproses dengan bantuan orang lain di kerumunan publik. Pelajari lebih lanjut tentang privasi di sini. Untuk data sensitif, Anda dapat menyiapkan kelompok pribadi di antara orang-orang yang Anda percayai.
Ada pertanyaan? Ping kami di Discord kami!
Petals adalah sistem yang dijalankan komunitas — kami mengandalkan orang-orang yang berbagi GPU mereka. Anda dapat membantu menyajikan salah satu model yang tersedia atau menghosting model baru dari ? Pusat Model!
Sebagai contoh, berikut adalah cara menghosting bagian dari Instruksi Llama 3.1 (405B) di GPU Anda:
? Ingin menjadi tuan rumah bagi Llama? Minta akses ke bobotnya, lalu jalankan huggingface-cli login
di terminal sebelum memuat model.
? Linux + Anaconda. Jalankan perintah ini untuk GPU NVIDIA (atau ikuti ini untuk AMD):
conda install pytorch pytorch-cuda=11.7 -c pytorch -c nvidia
pip install git+https://github.com/bigscience-workshop/petals
python -m petals.cli.run_server meta-llama/Meta-Llama-3.1-405B-Instruct
? Windows + WSL. Ikuti panduan ini di Wiki kami.
? Buruh pelabuhan. Jalankan image Docker kami untuk GPU NVIDIA (atau ikuti ini untuk AMD):
sudo docker run -p 31330:31330 --ipc host --gpus all --volume petals-cache:/cache --rm
learningathome/petals:main
python -m petals.cli.run_server --port 31330 meta-llama/Meta-Llama-3.1-405B-Instruct
? macOS + GPU Apple M1/M2. Instal Homebrew, lalu jalankan perintah ini:
brew install python
python3 -m pip install git+https://github.com/bigscience-workshop/petals
python3 -m petals.cli.run_server meta-llama/Meta-Llama-3.1-405B-Instruct
Pelajari lebih lanjut (cara menggunakan beberapa GPU, memulai server saat boot, dll.)
Keamanan. Hosting server tidak mengizinkan orang lain menjalankan kode khusus di komputer Anda. Pelajari lebih lanjut di sini.
Ada pertanyaan? Ping kami di Discord kami!
? Terima kasih! Setelah Anda memuat dan menghosting 10+ blok, kami dapat menampilkan nama atau tautan Anda di monitor gerombolan sebagai cara untuk mengucapkan terima kasih. Anda dapat menentukannya dengan --public_name YOUR_NAME
.
Baca makalah Lihat FAQ
Tutorial dasar:
Alat yang berguna:
Panduan lanjutan:
Silakan lihat Bagian 3.3 makalah kami.
Silakan lihat FAQ kami tentang berkontribusi.
Alexander Borzunov, Dmitry Baranchuk, Tim Dettmers, Max Ryabinin, Younes Belkada, Artem Chumachenko, Pavel Samygin, dan Colin Raffel. Kelopak: Inferensi Kolaboratif dan Penyempurnaan Model Besar. Prosiding Pertemuan Tahunan ke-61 Asosiasi Linguistik Komputasi (Volume 3: Demonstrasi Sistem). 2023.
@inproceedings { borzunov2023petals ,
title = { Petals: Collaborative Inference and Fine-tuning of Large Models } ,
author = { Borzunov, Alexander and Baranchuk, Dmitry and Dettmers, Tim and Riabinin, Maksim and Belkada, Younes and Chumachenko, Artem and Samygin, Pavel and Raffel, Colin } ,
booktitle = { Proceedings of the 61st Annual Meeting of the Association for Computational Linguistics (Volume 3: System Demonstrations) } ,
pages = { 558--568 } ,
year = { 2023 } ,
url = { https://arxiv.org/abs/2209.01188 }
}
Alexander Borzunov, Max Ryabinin, Artem Chumachenko, Dmitry Baranchuk, Tim Dettmers, Younes Belkada, Pavel Samygin, dan Colin Raffel. Inferensi terdistribusi dan penyesuaian model bahasa besar melalui Internet. Kemajuan Sistem Pemrosesan Informasi Neural 36 (2023).
@inproceedings { borzunov2023distributed ,
title = { Distributed inference and fine-tuning of large language models over the {I}nternet } ,
author = { Borzunov, Alexander and Ryabinin, Max and Chumachenko, Artem and Baranchuk, Dmitry and Dettmers, Tim and Belkada, Younes and Samygin, Pavel and Raffel, Colin } ,
booktitle = { Advances in Neural Information Processing Systems } ,
volume = { 36 } ,
pages = { 12312--12331 } ,
year = { 2023 } ,
url = { https://arxiv.org/abs/2312.08361 }
}
Proyek ini adalah bagian dari lokakarya penelitian BigScience.