Спасибо за разработку с моделями Llama. В рамках выпуска Llama 3.1 мы консолидировали github Repos и добавили некоторые дополнительные репо, поскольку мы расширили функциональность Llama в стек E2E Llama. Пожалуйста, используйте следующие репо, в будущем:
Если у вас есть какие -либо вопросы, пожалуйста, не стесняйтесь подать проблему в любом из вышеперечисленных репо, и мы сделаем все возможное, чтобы своевременно ответить.
Спасибо!
Мы разблокируем силу крупных языковых моделей. Llama 2 в настоящее время доступна для отдельных лиц, создателей, исследователей и предприятий всех размеров, чтобы они могли экспериментировать, вводить новшества и масштабировать свои идеи ответственно.
Этот релиз включает в себя веса модели и начальный код для предварительно обученных и тонко настроенных моделей Llama Language-от 7b до 70b параметры.
Этот репозиторий предназначен как минимальный пример для загрузки моделей Llama 2 и выполнения вывода. Более подробные примеры, использующие обнимающееся лицо, см. Llama-Recipes.
См. Updates.md. Также для выполнения списка часто задаваемых вопросов см. Здесь.
Чтобы загрузить модели веса и токенизатор, посетите веб -сайт Meta и примите нашу лицензию.
Как только ваш запрос будет утвержден, вы получите подписанный URL -адрес по электронной почте. Затем запустите сценарий download.sh, пропустив URL, предоставленный, когда будет предложено начать загрузку.
Предварительные условия: убедитесь, что у вас установлены wget
и md5sum
. Затем запустите скрипт: ./download.sh
.
Имейте в виду, что ссылки истекают через 24 часа и определенное количество загрузок. Если вы начинаете видеть ошибки, такие как 403: Forbidden
, вы всегда можете переоценить ссылку.
Мы также предоставляем загрузки на обнимающееся лицо. Вы можете запросить доступ к моделям, признав лицензию и заполняя форму на модельной карте репо. После этого вы должны получить доступ ко всем моделям Llama версии (Code Llama, Llama 2 или Llama Guard) в течение 1 часа.
Вы можете выполнить шаги ниже, чтобы быстро встать и запустить с моделями Llama 2. Эти шаги позволили бы вам быстро сделать вывод локально. Для получения дополнительных примеров см. Рецепт рецептов Llama 2.
В Conda Env с Pytorch / Cuda доступный клон и загрузите этот репозиторий.
В промежутке каталога верхнего уровня:
pip install -e .
Посетите веб -сайт Meta и зарегистрируйтесь, чтобы загрузить модель/с.
После регистрации вы получите электронное письмо с URL -адресом для загрузки моделей. Вам понадобится этот URL, когда вы запустите сценарий download.sh.
Как только вы получите электронное письмо, перейдите к своему загруженному репозиторию Llama и запустите сценарий download.sh.
После того, как вы хотите загрузить модель, вы можете запустить модель локально, используя команду ниже:
torchrun --nproc_per_node 1 example_chat_completion.py
--ckpt_dir llama-2-7b-chat/
--tokenizer_path tokenizer.model
--max_seq_len 512 --max_batch_size 6
Примечание
llama-2-7b-chat/
на путь к своему каталогу контрольно-пропускной пункты и tokenizer.model
Модель на пути к модели токенизатора.–nproc_per_node
должен быть установлен на значение MP для модели, которую вы используете.max_seq_len
и max_batch_size
по мере необходимости.Различные модели требуют разных значений модели (MP):
Модель | Депутат |
---|---|
7b | 1 |
13b | 2 |
70b | 8 |
Все модели поддерживают длину последовательности до 4096 токенов, но мы предварительно выделяем кэш в соответствии с значениями max_seq_len
и max_batch_size
. Так что установите их в соответствии с вашим оборудованием.
Эти модели не созданы для чата или вопросов и ответов. Они должны быть вызваны таким образом, чтобы ожидаемый ответ был естественным продолжением подсказки.
См. Пример example_text_completion.py
для некоторых примеров. Чтобы проиллюстрировать, см. Приведенную ниже команду, чтобы запустить ее с помощью модели Llama-2-7B ( nproc_per_node
должен быть установлен на значение MP
):
torchrun --nproc_per_node 1 example_text_completion.py
--ckpt_dir llama-2-7b/
--tokenizer_path tokenizer.model
--max_seq_len 128 --max_batch_size 4
Тонко настроенные модели были обучены для приложений для диалога. INST
<<SYS>>
strip()
функции и производительность для них, необходимо соблюдать EOS
BOS
, определяемый в chat_completion
strip()
на входах, чтобы избежать двойных пространств).
Вы также можете развернуть дополнительные классификаторы для фильтрации входов и выходов, которые считаются небезопасными. См. Repo Llama-Recipes для примера того, как добавить проверку безопасности на входы и выходы вашего кода вывода.
Примеры с использованием ламы-2-7b-чат:
torchrun --nproc_per_node 1 example_chat_completion.py
--ckpt_dir llama-2-7b-chat/
--tokenizer_path tokenizer.model
--max_seq_len 512 --max_batch_size 6
Llama 2 - это новая технология, которая несет потенциальные риски с использованием. Тестирование, проведенное на сегодняшний день, не было - и не могло - охватить все сценарии. Чтобы помочь разработчикам справиться с этими рисками, мы создали руководство по ответственному использованию. Более подробную информацию также можно найти в нашей исследовательской работе.
Пожалуйста, сообщите о любом программном «ошибке» или других проблемах с моделями одним из следующих средств:
См. Model_card.md.
Наша модель и веса лицензированы как для исследователей, так и для коммерческих организаций, поддерживая принципы открытости. Наша миссия состоит в том, чтобы расширить возможности отдельных лиц и промышленность посредством этой возможности, создавая при этом условия открытия и этических достижений искусственного интеллекта.
См. Файл лицензии, а также нашу сопроводительную политику приемлемого использования
По общим вопросам, FAQ можно найти здесь, что со временем будет в курсе новых вопросов.
Репо для оригинального релиза Llama находится в филиале llama_v1
.