petals تحميل - petals تنزيل كود المصدر

petals

كود الذكاء الاصطناعي

v2.2.0:

تنزيل

قم بتشغيل نماذج لغة كبيرة في المنزل، بأسلوب BitTorrent.
الضبط الدقيق والاستدلال أسرع بما يصل إلى 10 مرات من التفريغ

أنشئ نصًا باستخدام Llama 3.1 الموزع (حتى 405 بايت) أو Mixtral (8x22B) أو Falcon (40B+) أو BLOOM (176B) وقم بضبطها لمهامك الخاصة — مباشرةً من كمبيوتر سطح المكتب أو Google Colab:

 from transformers import AutoTokenizer
from petals import AutoDistributedModelForCausalLM

# Choose any model available at https://health.petals.dev
model_name = "meta-llama/Meta-Llama-3.1-405B-Instruct"

# Connect to a distributed network hosting model layers
tokenizer = AutoTokenizer . from_pretrained ( model_name )
model = AutoDistributedModelForCausalLM . from_pretrained ( model_name )

# Run the model as if it were on your computer
inputs = tokenizer ( "A cat sat" , return_tensors = "pt" )[ "input_ids" ]
outputs = model . generate ( inputs , max_new_tokens = 5 )
print ( tokenizer . decode ( outputs [ 0 ]))  # A cat sat on a mat...

جرب الآن في كولاب

؟ هل تريد تشغيل اللاما؟ اطلب الوصول إلى أوزانه، ثم قم بتشغيل huggingface-cli login في الوحدة الطرفية قبل تحميل النموذج. أو فقط جربه في تطبيق chatbot الخاص بنا.

؟ خصوصية. ستتم معالجة بياناتك بمساعدة أشخاص آخرين في السرب العام. تعرف على المزيد حول الخصوصية هنا. بالنسبة للبيانات الحساسة، يمكنك إعداد سرب خاص بين الأشخاص الذين تثق بهم.

أي أسئلة؟ بينغ لنا في الخلاف لدينا!

قم بتوصيل وحدة معالجة الرسومات الخاصة بك وزيادة سعة البتلات

Petals هو نظام يديره المجتمع - نحن نعتمد على الأشخاص الذين يشاركون وحدات معالجة الرسومات الخاصة بهم. هل يمكنك المساعدة في خدمة أحد النماذج المتوفرة أو استضافة نموذج جديد من؟ محور النموذج!

على سبيل المثال، إليك كيفية استضافة جزء من Llama 3.1 (405B) تعليمات على وحدة معالجة الرسومات الخاصة بك:

؟ هل تريد استضافة اللاما؟ اطلب الوصول إلى أوزانه، ثم قم بتشغيل huggingface-cli login في الوحدة الطرفية قبل تحميل النموذج.

؟ لينكس + اناكوندا. قم بتشغيل هذه الأوامر لوحدات معالجة الرسومات NVIDIA (أو اتبع هذا لـ AMD):

conda install pytorch pytorch-cuda=11.7 -c pytorch -c nvidia
pip install git+https://github.com/bigscience-workshop/petals
python -m petals.cli.run_server meta-llama/Meta-Llama-3.1-405B-Instruct

؟ ويندوز + دبليو إس إل. اتبع هذا الدليل على ويكي لدينا.

؟ عامل ميناء. قم بتشغيل صورة Docker الخاصة بنا لوحدات معالجة الرسومات NVIDIA (أو اتبع هذا لـ AMD):

sudo docker run -p 31330:31330 --ipc host --gpus all --volume petals-cache:/cache --rm 
    learningathome/petals:main 
    python -m petals.cli.run_server --port 31330 meta-llama/Meta-Llama-3.1-405B-Instruct

؟ نظام التشغيل MacOS + معالج رسوميات Apple M1/M2. قم بتثبيت Homebrew، ثم قم بتشغيل هذه الأوامر:

brew install python
python3 -m pip install git+https://github.com/bigscience-workshop/petals
python3 -m petals.cli.run_server meta-llama/Meta-Llama-3.1-405B-Instruct

تعرف على المزيد (كيفية استخدام وحدات معالجة الرسومات المتعددة، وبدء تشغيل الخادم عند التمهيد، وما إلى ذلك)

حماية. لا تسمح استضافة الخادم للآخرين بتشغيل تعليمات برمجية مخصصة على جهاز الكمبيوتر الخاص بك. تعلم المزيد هنا.

أي أسئلة؟ بينغ لنا في الخلاف لدينا!

؟ شكرًا لك! بمجرد تحميل واستضافة أكثر من 10 كتل، يمكننا إظهار اسمك أو رابطك على شاشة السرب كوسيلة للتعبير عن الشكر. يمكنك تحديدها باستخدام --public_name YOUR_NAME .

كيف يعمل؟

يمكنك تحميل جزء صغير من النموذج، ثم الانضمام إلى شبكة من الأشخاص الذين يخدمون الأجزاء الأخرى. يعمل استنتاج الدفعة الواحدة بما يصل إلى 6 رموز مميزة/ثانية لـ Llama 2 (70B) وما يصل إلى 4 رموز مميزة/ثانية لـ Falcon (180B) - وهو ما يكفي لروبوتات الدردشة والتطبيقات التفاعلية.
يمكنك استخدام أي من أساليب الضبط وأخذ العينات أو تنفيذ مسارات مخصصة من خلال النموذج أو رؤية حالاته المخفية. يمكنك الحصول على وسائل الراحة التي توفرها واجهة برمجة التطبيقات (API) مع مرونة PyTorch و ؟ المحولات .

اقرأ الورقة، راجع الأسئلة الشائعة

الدروس والأمثلة، وأكثر من ذلك

الدروس الأساسية:

البدء: البرنامج التعليمي
ضبط سريع لـ Llama-65B لتصنيف النص الدلالي: البرنامج التعليمي
قم بضبط BLOOM بسرعة لإنشاء روبوت محادثة مخصص: برنامج تعليمي

أدوات مفيدة:

تطبيق الويب Chatbot (يتصل بـ Petals عبر نقطة نهاية HTTP/WebSocket): كود المصدر
مراقبة السرب العام: كود المصدر

الأدلة المتقدمة:

إطلاق سرب خاص: دليل
تشغيل نموذج مخصص: الدليل

المعايير

يرجى الاطلاع على القسم 3.3 من ورقتنا.

المساهمة

يرجى الاطلاع على الأسئلة الشائعة حول المساهمة.

الاستشهادات

ألكسندر بورزونوف، وديمتري بارانشوك، وتيم ديتميرز، وماكس ريابينين، ويونس بلكادا، وأرتيم تشوماشينكو، وبافيل ساميجين، وكولين رافيل. البتلات: الاستدلال التعاوني والضبط الدقيق للنماذج الكبيرة. وقائع الاجتماع السنوي الحادي والستين لجمعية اللغويات الحاسوبية (المجلد 3: عروض النظام). 2023.

 @inproceedings { borzunov2023petals ,
  title = { Petals: Collaborative Inference and Fine-tuning of Large Models } ,
  author = { Borzunov, Alexander and Baranchuk, Dmitry and Dettmers, Tim and Riabinin, Maksim and Belkada, Younes and Chumachenko, Artem and Samygin, Pavel and Raffel, Colin } ,
  booktitle = { Proceedings of the 61st Annual Meeting of the Association for Computational Linguistics (Volume 3: System Demonstrations) } ,
  pages = { 558--568 } ,
  year = { 2023 } ,
  url = { https://arxiv.org/abs/2209.01188 }
}

ألكسندر بورزونوف، ماكس ريابينين، أرتيم تشوماشينكو، ديمتري بارانشوك، تيم ديتميرز، يونس بلكادا، بافيل ساميجين، وكولين رافيل. الاستدلال الموزع والضبط الدقيق لنماذج اللغات الكبيرة عبر الإنترنت. التقدم في أنظمة معالجة المعلومات العصبية 36 (2023).

 @inproceedings { borzunov2023distributed ,
  title = { Distributed inference and fine-tuning of large language models over the {I}nternet } ,
  author = { Borzunov, Alexander and Ryabinin, Max and Chumachenko, Artem and Baranchuk, Dmitry and Dettmers, Tim and Belkada, Younes and Samygin, Pavel and Raffel, Colin } ,
  booktitle = { Advances in Neural Information Processing Systems } ,
  volume = { 36 } ,
  pages = { 12312--12331 } ,
  year = { 2023 } ,
  url = { https://arxiv.org/abs/2312.08361 }
}