قم بتشغيل نماذج لغة كبيرة في المنزل، بأسلوب BitTorrent.
الضبط الدقيق والاستدلال أسرع بما يصل إلى 10 مرات من التفريغ
أنشئ نصًا باستخدام Llama 3.1 الموزع (حتى 405 بايت) أو Mixtral (8x22B) أو Falcon (40B+) أو BLOOM (176B) وقم بضبطها لمهامك الخاصة — مباشرةً من كمبيوتر سطح المكتب أو Google Colab:
from transformers import AutoTokenizer
from petals import AutoDistributedModelForCausalLM
# Choose any model available at https://health.petals.dev
model_name = "meta-llama/Meta-Llama-3.1-405B-Instruct"
# Connect to a distributed network hosting model layers
tokenizer = AutoTokenizer . from_pretrained ( model_name )
model = AutoDistributedModelForCausalLM . from_pretrained ( model_name )
# Run the model as if it were on your computer
inputs = tokenizer ( "A cat sat" , return_tensors = "pt" )[ "input_ids" ]
outputs = model . generate ( inputs , max_new_tokens = 5 )
print ( tokenizer . decode ( outputs [ 0 ])) # A cat sat on a mat...
جرب الآن في كولاب
؟ هل تريد تشغيل اللاما؟ اطلب الوصول إلى أوزانه، ثم قم بتشغيل huggingface-cli login
في الوحدة الطرفية قبل تحميل النموذج. أو فقط جربه في تطبيق chatbot الخاص بنا.
؟ خصوصية. ستتم معالجة بياناتك بمساعدة أشخاص آخرين في السرب العام. تعرف على المزيد حول الخصوصية هنا. بالنسبة للبيانات الحساسة، يمكنك إعداد سرب خاص بين الأشخاص الذين تثق بهم.
أي أسئلة؟ بينغ لنا في الخلاف لدينا!
Petals هو نظام يديره المجتمع - نحن نعتمد على الأشخاص الذين يشاركون وحدات معالجة الرسومات الخاصة بهم. هل يمكنك المساعدة في خدمة أحد النماذج المتوفرة أو استضافة نموذج جديد من؟ محور النموذج!
على سبيل المثال، إليك كيفية استضافة جزء من Llama 3.1 (405B) تعليمات على وحدة معالجة الرسومات الخاصة بك:
؟ هل تريد استضافة اللاما؟ اطلب الوصول إلى أوزانه، ثم قم بتشغيل huggingface-cli login
في الوحدة الطرفية قبل تحميل النموذج.
؟ لينكس + اناكوندا. قم بتشغيل هذه الأوامر لوحدات معالجة الرسومات NVIDIA (أو اتبع هذا لـ AMD):
conda install pytorch pytorch-cuda=11.7 -c pytorch -c nvidia
pip install git+https://github.com/bigscience-workshop/petals
python -m petals.cli.run_server meta-llama/Meta-Llama-3.1-405B-Instruct
؟ ويندوز + دبليو إس إل. اتبع هذا الدليل على ويكي لدينا.
؟ عامل ميناء. قم بتشغيل صورة Docker الخاصة بنا لوحدات معالجة الرسومات NVIDIA (أو اتبع هذا لـ AMD):
sudo docker run -p 31330:31330 --ipc host --gpus all --volume petals-cache:/cache --rm
learningathome/petals:main
python -m petals.cli.run_server --port 31330 meta-llama/Meta-Llama-3.1-405B-Instruct
؟ نظام التشغيل MacOS + معالج رسوميات Apple M1/M2. قم بتثبيت Homebrew، ثم قم بتشغيل هذه الأوامر:
brew install python
python3 -m pip install git+https://github.com/bigscience-workshop/petals
python3 -m petals.cli.run_server meta-llama/Meta-Llama-3.1-405B-Instruct
تعرف على المزيد (كيفية استخدام وحدات معالجة الرسومات المتعددة، وبدء تشغيل الخادم عند التمهيد، وما إلى ذلك)
حماية. لا تسمح استضافة الخادم للآخرين بتشغيل تعليمات برمجية مخصصة على جهاز الكمبيوتر الخاص بك. تعلم المزيد هنا.
أي أسئلة؟ بينغ لنا في الخلاف لدينا!
؟ شكرًا لك! بمجرد تحميل واستضافة أكثر من 10 كتل، يمكننا إظهار اسمك أو رابطك على شاشة السرب كوسيلة للتعبير عن الشكر. يمكنك تحديدها باستخدام --public_name YOUR_NAME
.
اقرأ الورقة، راجع الأسئلة الشائعة
الدروس الأساسية:
أدوات مفيدة:
الأدلة المتقدمة:
يرجى الاطلاع على القسم 3.3 من ورقتنا.
يرجى الاطلاع على الأسئلة الشائعة حول المساهمة.
ألكسندر بورزونوف، وديمتري بارانشوك، وتيم ديتميرز، وماكس ريابينين، ويونس بلكادا، وأرتيم تشوماشينكو، وبافيل ساميجين، وكولين رافيل. البتلات: الاستدلال التعاوني والضبط الدقيق للنماذج الكبيرة. وقائع الاجتماع السنوي الحادي والستين لجمعية اللغويات الحاسوبية (المجلد 3: عروض النظام). 2023.
@inproceedings { borzunov2023petals ,
title = { Petals: Collaborative Inference and Fine-tuning of Large Models } ,
author = { Borzunov, Alexander and Baranchuk, Dmitry and Dettmers, Tim and Riabinin, Maksim and Belkada, Younes and Chumachenko, Artem and Samygin, Pavel and Raffel, Colin } ,
booktitle = { Proceedings of the 61st Annual Meeting of the Association for Computational Linguistics (Volume 3: System Demonstrations) } ,
pages = { 558--568 } ,
year = { 2023 } ,
url = { https://arxiv.org/abs/2209.01188 }
}
ألكسندر بورزونوف، ماكس ريابينين، أرتيم تشوماشينكو، ديمتري بارانشوك، تيم ديتميرز، يونس بلكادا، بافيل ساميجين، وكولين رافيل. الاستدلال الموزع والضبط الدقيق لنماذج اللغات الكبيرة عبر الإنترنت. التقدم في أنظمة معالجة المعلومات العصبية 36 (2023).
@inproceedings { borzunov2023distributed ,
title = { Distributed inference and fine-tuning of large language models over the {I}nternet } ,
author = { Borzunov, Alexander and Ryabinin, Max and Chumachenko, Artem and Baranchuk, Dmitry and Dettmers, Tim and Belkada, Younes and Samygin, Pavel and Raffel, Colin } ,
booktitle = { Advances in Neural Information Processing Systems } ,
volume = { 36 } ,
pages = { 12312--12331 } ,
year = { 2023 } ,
url = { https://arxiv.org/abs/2312.08361 }
}
هذا المشروع هو جزء من ورشة عمل BigScience البحثية.