Запускайте большие языковые модели дома в стиле BitTorrent.
Точная настройка и вывод до 10 раз быстрее, чем разгрузка
Создавайте текст с помощью распространяемых версий Llama 3.1 (до 405 Б), Mixtral (8x22 Б), Falcon (40 Б+) или BLOOM (176 Б) и настраивайте их под свои задачи — прямо со своего настольного компьютера или Google Colab:
from transformers import AutoTokenizer
from petals import AutoDistributedModelForCausalLM
# Choose any model available at https://health.petals.dev
model_name = "meta-llama/Meta-Llama-3.1-405B-Instruct"
# Connect to a distributed network hosting model layers
tokenizer = AutoTokenizer . from_pretrained ( model_name )
model = AutoDistributedModelForCausalLM . from_pretrained ( model_name )
# Run the model as if it were on your computer
inputs = tokenizer ( "A cat sat" , return_tensors = "pt" )[ "input_ids" ]
outputs = model . generate ( inputs , max_new_tokens = 5 )
print ( tokenizer . decode ( outputs [ 0 ])) # A cat sat on a mat...
Попробуйте сейчас в Colab
? Хотите запустить Ламу? Запросите доступ к его весам, затем запустите huggingface-cli login
перед загрузкой модели. Или просто попробуйте это в нашем приложении чат-бота.
? Конфиденциальность. Ваши данные будут обрабатываться с помощью других людей из публичного круга. Узнайте больше о конфиденциальности здесь. Для конфиденциальных данных вы можете создать частную группу среди людей, которым вы доверяете.
Есть вопросы? Пишите нам в Discord!
Petals — это система, управляемая сообществом: мы полагаемся на людей, которые делятся своими графическими процессорами. Вы можете помочь обслужить одну из доступных моделей или разместить новую модель из ? Модельный хаб!
В качестве примера, вот как разместить часть инструкций Llama 3.1 (405B) на вашем графическом процессоре:
? Хотите принять Ламу? Запросите доступ к его весам, затем запустите huggingface-cli login
перед загрузкой модели.
? Линукс + Анаконда. Запустите эти команды для графических процессоров NVIDIA (или выполните следующие действия для AMD):
conda install pytorch pytorch-cuda=11.7 -c pytorch -c nvidia
pip install git+https://github.com/bigscience-workshop/petals
python -m petals.cli.run_server meta-llama/Meta-Llama-3.1-405B-Instruct
? Windows + WSL. Следуйте этому руководству на нашей Wiki.
? Докер. Запустите наш образ Docker для графических процессоров NVIDIA (или следуйте этому для AMD):
sudo docker run -p 31330:31330 --ipc host --gpus all --volume petals-cache:/cache --rm
learningathome/petals:main
python -m petals.cli.run_server --port 31330 meta-llama/Meta-Llama-3.1-405B-Instruct
? macOS + графический процессор Apple M1/M2. Установите Homebrew, затем выполните следующие команды:
brew install python
python3 -m pip install git+https://github.com/bigscience-workshop/petals
python3 -m petals.cli.run_server meta-llama/Meta-Llama-3.1-405B-Instruct
Узнайте больше (как использовать несколько графических процессоров, запустить сервер при загрузке и т. д.)
Безопасность. Размещение сервера не позволяет другим запускать собственный код на вашем компьютере. Узнайте больше здесь.
Есть вопросы? Пишите нам в Discord!
? Спасибо! Как только вы загрузите и разместите более 10 блоков, мы сможем показать ваше имя или ссылку на мониторе Swarm в знак благодарности. Вы можете указать их с помощью --public_name YOUR_NAME
.
Прочитать статью См. Часто задаваемые вопросы
Основные уроки:
Полезные инструменты:
Расширенные руководства:
См. раздел 3.3 нашей статьи.
Пожалуйста, ознакомьтесь с нашими часто задаваемыми вопросами о вкладе.
Александр Борзунов, Дмитрий Баранчук, Тим Деттмерс, Макс Рябинин, Юнес Белкада, Артем Чумаченко, Павел Самыгин и Колин Раффель. Лепестки: совместный вывод и точная настройка больших моделей. Материалы 61-го ежегодного собрания Ассоциации компьютерной лингвистики (Том 3: Демонстрации системы). 2023.
@inproceedings { borzunov2023petals ,
title = { Petals: Collaborative Inference and Fine-tuning of Large Models } ,
author = { Borzunov, Alexander and Baranchuk, Dmitry and Dettmers, Tim and Riabinin, Maksim and Belkada, Younes and Chumachenko, Artem and Samygin, Pavel and Raffel, Colin } ,
booktitle = { Proceedings of the 61st Annual Meeting of the Association for Computational Linguistics (Volume 3: System Demonstrations) } ,
pages = { 558--568 } ,
year = { 2023 } ,
url = { https://arxiv.org/abs/2209.01188 }
}
Александр Борзунов, Макс Рябинин, Артем Чумаченко, Дмитрий Баранчук, Тим Деттмерс, Юнес Белкада, Павел Самыгин и Колин Раффель. Распределенный вывод и точная настройка больших языковых моделей через Интернет. Достижения в области нейронных систем обработки информации 36 (2023 г.).
@inproceedings { borzunov2023distributed ,
title = { Distributed inference and fine-tuning of large language models over the {I}nternet } ,
author = { Borzunov, Alexander and Ryabinin, Max and Chumachenko, Artem and Baranchuk, Dmitry and Dettmers, Tim and Belkada, Younes and Samygin, Pavel and Raffel, Colin } ,
booktitle = { Advances in Neural Information Processing Systems } ,
volume = { 36 } ,
pages = { 12312--12331 } ,
year = { 2023 } ,
url = { https://arxiv.org/abs/2312.08361 }
}
Этот проект является частью исследовательского семинара BigScience.