? Модели на обнимающемся сайте |
Мы раскрываем возможности больших языковых моделей. Наша последняя версия Llama теперь доступна частным лицам, авторам, исследователям и предприятиям любого размера, чтобы они могли ответственно экспериментировать, внедрять инновации и масштабировать свои идеи.
Этот выпуск включает веса моделей и стартовый код для предварительно обученных и настроенных инструкций языка Llama 3, включая размеры параметров от 8B до 70B.
Этот репозиторий задуман как минимальный пример загрузки модели Llama 3 и выполнения вывода. Более подробные примеры смотрите в рецептах ламы.
Чтобы загрузить веса моделей и токенизатор, посетите веб-сайт Meta Llama и примите наше лицензионное соглашение.
После отправки запроса вы получите подписанный URL-адрес по электронной почте. Затем запустите сценарий download.sh, передав предоставленный URL-адрес при появлении запроса на начало загрузки.
Предварительное условие: убедитесь, что у вас установлены wget
и md5sum
. Затем запустите скрипт: ./download.sh
.
Имейте в виду, что срок действия ссылки истекает через 24 часа и определенное количество загрузок. Если вы начнете видеть ошибки типа 403: Forbidden
, вы всегда можете повторно запросить ссылку.
Мы также предлагаем загрузки для Hugging Face, включая трансформеры и собственные форматы llama3
. Чтобы загрузить веса из Hugging Face, выполните следующие действия:
original
папки. Вы также можете загрузить их из командной строки, если вы установили pip install huggingface-hub
: huggingface-cli download meta-llama/Meta-Llama-3-8B-Instruct --include " original/* " --local-dir meta-llama/Meta-Llama-3-8B-Instruct
import transformers
import torch
model_id = "meta-llama/Meta-Llama-3-8B-Instruct"
pipeline = transformers . pipeline (
"text-generation" ,
model = "meta-llama/Meta-Llama-3-8B-Instruct" ,
model_kwargs = { "torch_dtype" : torch . bfloat16 },
device = "cuda" ,
)
Вы можете быстро начать использовать модель Llama 3, выполнив следующие действия. Эти шаги позволят вам сделать быстрый вывод локально. Дополнительные примеры можно найти в репозитории рецептов ламы.
Клонируйте и загрузите этот репозиторий в среде conda с установленным PyTorch/CUDA.
Запустите в верхнем каталоге:
pip install -e .
Посетите веб-сайт Meta Llama и зарегистрируйтесь, чтобы загрузить модели.
После регистрации вы получите электронное письмо с URL-адресом для загрузки модели. Этот URL-адрес понадобится вам при запуске сценария download.sh.
Получив электронное письмо, перейдите к загруженному вами репозиторию llama и запустите сценарий download.sh.
После загрузки необходимой модели вы можете запустить ее локально с помощью следующей команды:
torchrun --nproc_per_node 1 example_chat_completion.py
--ckpt_dir Meta-Llama-3-8B-Instruct/
--tokenizer_path Meta-Llama-3-8B-Instruct/tokenizer.model
--max_seq_len 512 --max_batch_size 6
Уведомление
Meta-Llama-3-8B-Instruct/
на путь к каталогу вашей контрольной точки и Meta-Llama-3-8B-Instruct/tokenizer.model
на путь к вашей модели токенизатора.–nproc_per_node
должно быть установлено на значение MP модели, которую вы используете.max_seq_len
и max_batch_size
.Разные модели требуют разных значений параллелизма модели (MP):
Модель | член парламента |
---|---|
8Б | 1 |
70Б | 8 |
Все модели поддерживают длину последовательности до 8192 токенов, но мы предварительно выделяем кеш на основе значений max_seq_len
и max_batch_size
. Поэтому установите эти значения в соответствии с вашим оборудованием.
Эти модели не предназначены для чата или вопросов и ответов. Подсказки должны быть настроены так, чтобы ожидаемый ответ был естественным продолжением подсказки.
Некоторые примеры см. в example_text_completion.py
. Для иллюстрации см. команду ниже, чтобы запустить ее с использованием модели llama-3-8b (для nproc_per_node
необходимо установить значение MP
):
torchrun --nproc_per_node 1 example_text_completion.py --ckpt_dir Meta-Llama-3-8B/ --tokenizer_path Meta-Llama-3-8B/tokenizer.model --max_seq_len 128 --max_batch_size 4
Точные настройки моделей обучаются для диалоговых приложений. Чтобы получить ожидаемые характеристики и производительность, им необходимо следовать определенному формату, определенному в ChatFormat
: приглашения начинаются со специального токена <|begin_of_text|>
, за которым следует одно или несколько сообщений. Каждое сообщение начинается с тега <|start_header_id|>
, имеет роль system
, user
или assistant
и заканчивается тегом <|end_header_id|>
. После двойной новой строки nn
следует содержание сообщения. Конец каждого сообщения отмечается токеном <|eot_id|>
.
Вы также можете развернуть дополнительные классификаторы для фильтрации входных и выходных данных, которые считаются небезопасными. См. пример в репозитории llama-recipes о том, как добавить средства проверки безопасности к входным и выходным данным вашего кода вывода.
Пример использования llama-3-8b-chat:
torchrun --nproc_per_node 1 example_chat_completion.py --ckpt_dir Meta-Llama-3-8B-Instruct/ --tokenizer_path Meta-Llama-3-8B-Instruct/tokenizer.model --max_seq_len 512 --max_batch_size 6
Llama 3 — это новая технология, сопряженная с потенциальными рисками. Проведенные до сих пор тесты не охватывают и не могут охватить все ситуации. Чтобы помочь разработчикам устранить эти риски, мы разработали Руководство по ответственному использованию.
Сообщайте об «ошибках» программного обеспечения или других проблемах с моделью одним из следующих способов:
См. MODEL_CARD.md.
Наши модели и гири лицензируются исследователям и коммерческим организациям, придерживаясь открытых принципов. Наша миссия — расширить возможности отдельных лиц и отраслей с помощью этой возможности, одновременно создавая среду открытий и этического развития ИИ.
Пожалуйста, ознакомьтесь с документом ЛИЦЕНЗИЯ, а также с нашей Политикой допустимого использования.
Часто задаваемые вопросы можно найти здесь https://llama.meta.com/faq, он будет постоянно обновляться по мере возникновения новых вопросов.