Скачать petals - petals скачать исходный код

petals

AI Исходный код

v2.2.0:

Скачать

Запускайте большие языковые модели дома в стиле BitTorrent.
Точная настройка и вывод до 10 раз быстрее, чем разгрузка

Создавайте текст с помощью распространяемых версий Llama 3.1 (до 405 Б), Mixtral (8x22 Б), Falcon (40 Б+) или BLOOM (176 Б) и настраивайте их под свои задачи — прямо со своего настольного компьютера или Google Colab:

 from transformers import AutoTokenizer
from petals import AutoDistributedModelForCausalLM

# Choose any model available at https://health.petals.dev
model_name = "meta-llama/Meta-Llama-3.1-405B-Instruct"

# Connect to a distributed network hosting model layers
tokenizer = AutoTokenizer . from_pretrained ( model_name )
model = AutoDistributedModelForCausalLM . from_pretrained ( model_name )

# Run the model as if it were on your computer
inputs = tokenizer ( "A cat sat" , return_tensors = "pt" )[ "input_ids" ]
outputs = model . generate ( inputs , max_new_tokens = 5 )
print ( tokenizer . decode ( outputs [ 0 ]))  # A cat sat on a mat...

Попробуйте сейчас в Colab

? Хотите запустить Ламу? Запросите доступ к его весам, затем запустите huggingface-cli login перед загрузкой модели. Или просто попробуйте это в нашем приложении чат-бота.

? Конфиденциальность. Ваши данные будут обрабатываться с помощью других людей из публичного круга. Узнайте больше о конфиденциальности здесь. Для конфиденциальных данных вы можете создать частную группу среди людей, которым вы доверяете.

Есть вопросы? Пишите нам в Discord!

Подключите свой графический процессор и увеличьте мощность Petals

Petals — это система, управляемая сообществом: мы полагаемся на людей, которые делятся своими графическими процессорами. Вы можете помочь обслужить одну из доступных моделей или разместить новую модель из ? Модельный хаб!

В качестве примера, вот как разместить часть инструкций Llama 3.1 (405B) на вашем графическом процессоре:

? Хотите принять Ламу? Запросите доступ к его весам, затем запустите huggingface-cli login перед загрузкой модели.

? Линукс + Анаконда. Запустите эти команды для графических процессоров NVIDIA (или выполните следующие действия для AMD):

conda install pytorch pytorch-cuda=11.7 -c pytorch -c nvidia
pip install git+https://github.com/bigscience-workshop/petals
python -m petals.cli.run_server meta-llama/Meta-Llama-3.1-405B-Instruct

? Windows + WSL. Следуйте этому руководству на нашей Wiki.

? Докер. Запустите наш образ Docker для графических процессоров NVIDIA (или следуйте этому для AMD):

sudo docker run -p 31330:31330 --ipc host --gpus all --volume petals-cache:/cache --rm 
    learningathome/petals:main 
    python -m petals.cli.run_server --port 31330 meta-llama/Meta-Llama-3.1-405B-Instruct

? macOS + графический процессор Apple M1/M2. Установите Homebrew, затем выполните следующие команды:

brew install python
python3 -m pip install git+https://github.com/bigscience-workshop/petals
python3 -m petals.cli.run_server meta-llama/Meta-Llama-3.1-405B-Instruct

Узнайте больше (как использовать несколько графических процессоров, запустить сервер при загрузке и т. д.)

Безопасность. Размещение сервера не позволяет другим запускать собственный код на вашем компьютере. Узнайте больше здесь.

Есть вопросы? Пишите нам в Discord!

? Спасибо! Как только вы загрузите и разместите более 10 блоков, мы сможем показать ваше имя или ссылку на мониторе Swarm в знак благодарности. Вы можете указать их с помощью --public_name YOUR_NAME .

Как это работает?

Вы загружаете небольшую часть модели, а затем присоединяетесь к сети людей, обслуживающих другие части. Однопакетный вывод выполняется со скоростью до 6 токенов в секунду для Llama 2 (70B) и до 4 токенов в секунду для Falcon (180B) — этого достаточно для чат-ботов и интерактивных приложений.
Вы можете использовать любые методы точной настройки и выборки, выполнять собственные пути через модель или просматривать ее скрытые состояния. Вы получаете удобство API с гибкостью PyTorch и ? Трансформеры .

Прочитать статью См. Часто задаваемые вопросы

Учебники, примеры и многое другое

Основные уроки:

Начало работы: учебник
Подскажите-настройка Ламы-65Б на семантическую классификацию текста: учебное пособие
Оперативная настройка BLOOM для создания персонифицированного чат-бота: руководство

Полезные инструменты:

Веб-приложение чат-бота (подключается к Petals через конечную точку HTTP/WebSocket): исходный код
Монитор публичного роя: исходный код

Расширенные руководства:

Запустите частный рой: руководство
Запуск пользовательской модели: руководство

Тесты

См. раздел 3.3 нашей статьи.

Содействие

Пожалуйста, ознакомьтесь с нашими часто задаваемыми вопросами о вкладе.

Цитаты

Александр Борзунов, Дмитрий Баранчук, Тим Деттмерс, Макс Рябинин, Юнес Белкада, Артем Чумаченко, Павел Самыгин и Колин Раффель. Лепестки: совместный вывод и точная настройка больших моделей. Материалы 61-го ежегодного собрания Ассоциации компьютерной лингвистики (Том 3: Демонстрации системы). 2023.

 @inproceedings { borzunov2023petals ,
  title = { Petals: Collaborative Inference and Fine-tuning of Large Models } ,
  author = { Borzunov, Alexander and Baranchuk, Dmitry and Dettmers, Tim and Riabinin, Maksim and Belkada, Younes and Chumachenko, Artem and Samygin, Pavel and Raffel, Colin } ,
  booktitle = { Proceedings of the 61st Annual Meeting of the Association for Computational Linguistics (Volume 3: System Demonstrations) } ,
  pages = { 558--568 } ,
  year = { 2023 } ,
  url = { https://arxiv.org/abs/2209.01188 }
}

Александр Борзунов, Макс Рябинин, Артем Чумаченко, Дмитрий Баранчук, Тим Деттмерс, Юнес Белкада, Павел Самыгин и Колин Раффель. Распределенный вывод и точная настройка больших языковых моделей через Интернет. Достижения в области нейронных систем обработки информации 36 (2023 г.).

 @inproceedings { borzunov2023distributed ,
  title = { Distributed inference and fine-tuning of large language models over the {I}nternet } ,
  author = { Borzunov, Alexander and Ryabinin, Max and Chumachenko, Artem and Baranchuk, Dmitry and Dettmers, Tim and Belkada, Younes and Samygin, Pavel and Raffel, Colin } ,
  booktitle = { Advances in Neural Information Processing Systems } ,
  volume = { 36 } ,
  pages = { 12312--12331 } ,
  year = { 2023 } ,
  url = { https://arxiv.org/abs/2312.08361 }
}