? Модели с обнимающимся лицом | Блог | Веб-сайт | Начать
Благодарим вас за разработку моделей Llama. В рамках выпуска Llama 3.1 мы объединили репозитории GitHub и добавили несколько дополнительных репозиториев, расширив функциональность Llama до стека e2e Llama. Пожалуйста, используйте следующие репозитории в будущем:
llama-models — центральное репозиторий базовых моделей, включая базовые утилиты, карты моделей, лицензии и политики использования.
PurpleLlama — ключевой компонент Llama Stack, ориентированный на риски безопасности и сокращение времени вывода.
llama-toolchain — Разработка моделей (вывод/тонкая настройка/защита/генерация синтетических данных) интерфейсы и канонические реализации
llama-agentic-system — автономная система E2E Llama Stack вместе с продуманным базовым интерфейсом, позволяющим создавать агентские приложения.
llama-recipes — скрипты и интеграции, управляемые сообществом
Если у вас есть какие-либо вопросы, пожалуйста, сообщите о проблеме в любом из вышеуказанных репозиториев, и мы сделаем все возможное, чтобы ответить своевременно.
Спасибо!
Мы раскрываем возможности больших языковых моделей. Наша последняя версия Llama теперь доступна частным лицам, авторам, исследователям и предприятиям любого размера, чтобы они могли экспериментировать, внедрять инновации и ответственно масштабировать свои идеи.
В этот выпуск включены веса моделей и стартовый код для предварительно обученных и настроенных с помощью инструкций моделей языка Llama 3, включая параметры размером от 8 до 70 бит.
Этот репозиторий представляет собой минимальный пример загрузки моделей Llama 3 и выполнения вывода. Более подробные примеры смотрите в рецептах приготовления ламы.
Чтобы загрузить веса моделей и токенизатор, посетите веб-сайт Meta Llama и примите нашу лицензию.
Как только ваш запрос будет одобрен, вы получите подписанный URL-адрес по электронной почте. Затем запустите сценарий download.sh, передав URL-адрес, указанный при появлении запроса на начало загрузки.
Предварительные требования: убедитесь, что у вас установлены wget
и md5sum
. Затем запустите скрипт: ./download.sh
.
Помните, что срок действия ссылок истекает через 24 часа и определенное количество загрузок. Вы всегда можете повторно запросить ссылку, если начнете видеть такие ошибки, как 403: Forbidden
.
Мы также предоставляем загрузки для Hugging Face как в трансформерах, так и в родном формате llama3
. Чтобы загрузить веса из Hugging Face, выполните следующие действия:
Посетите один из репозиториев, например мета-лама/Meta-Llama-3-8B-Instruct.
Прочтите и примите лицензию. Как только ваш запрос будет одобрен, вам будет предоставлен доступ ко всем моделям Llama 3. Обратите внимание, что обработка запросов раньше занимала до одного часа.
Чтобы загрузить исходные собственные веса для использования с этим репозиторием, нажмите вкладку «Файлы и версии» и загрузите содержимое original
папки. Вы также можете загрузить их из командной строки, если вы pip install huggingface-hub
:
huggingface-cli скачать мета-llama/Meta-Llama-3-8B-Instruct --include "original/*" --local-dir мета-llama/Meta-Llama-3-8B-Instruct
Для использования с преобразователями следующий фрагмент конвейера загрузит и кэширует веса:
import Transformersimport torchmodel_id = "meta-llama/Meta-Llama-3-8B-Instruct"pipeline = Transformers.pipeline( "text-generation", model="meta-llama/Meta-Llama-3-8B-Instruct", model_kwargs = {"torch_dtype": torch.bfloat16}, устройство = "cuda", )
Вы можете выполнить следующие действия, чтобы быстро приступить к работе с моделями Llama 3. Эти шаги позволят вам выполнить быстрый вывод локально. Дополнительные примеры можно найти в репозитории рецептов ламы.
Клонируйте и загрузите этот репозиторий в среде conda с помощью PyTorch/CUDA.
В каталоге верхнего уровня выполните:
пип установить -e .
Посетите веб-сайт Meta Llama и зарегистрируйтесь, чтобы загрузить модель(и).
После регистрации вы получите электронное письмо с URL-адресом для загрузки моделей. Этот URL-адрес понадобится вам при запуске сценария download.sh.
Получив электронное письмо, перейдите в загруженный репозиторий llama и запустите скрипт download.sh.
Обязательно предоставьте разрешения на выполнение скрипту download.sh.
Во время этого процесса вам будет предложено ввести URL-адрес из электронного письма.
Не используйте опцию «Копировать ссылку»; скопируйте ссылку из письма вручную.
После загрузки нужной модели/моделей вы можете запустить ее локально, используя команду ниже:
torchrun --nproc_per_node 1 example_chat_completion.py --ckpt_dir Мета-Ллама-3-8B-Instruct/ --tokenizer_path Meta-Llama-3-8B-Instruct/tokenizer.model --max_seq_len 512 --max_batch_size 6
Примечание
Замените Meta-Llama-3-8B-Instruct/
на путь к каталогу вашей контрольной точки и Meta-Llama-3-8B-Instruct/tokenizer.model
на путь к вашей модели токенизатора.
В –nproc_per_node
должно быть установлено значение MP для используемой вами модели.
При необходимости отрегулируйте параметры max_seq_len
и max_batch_size
.
В этом примере запускается файл example_chat_completion.py, найденный в этом репозитории, но вы можете изменить его на другой файл .py.
Разные модели требуют разных значений параллельности модели (MP):
Модель | член парламента |
---|---|
8Б | 1 |
70Б | 8 |
Все модели поддерживают длину последовательности до 8192 токенов, но мы предварительно выделяем кеш в соответствии со значениями max_seq_len
и max_batch_size
. Поэтому установите их в соответствии с вашим оборудованием.
Эти модели не предназначены для чата или вопросов и ответов. Их следует подсказывать так, чтобы ожидаемый ответ был естественным продолжением подсказки.
Некоторые примеры см. в example_text_completion.py
. Для иллюстрации см. команду ниже, чтобы запустить ее с моделью llama-3-8b (для nproc_per_node
необходимо установить значение MP
):
torchrun --nproc_per_node 1 example_text_completion.py --ckpt_dir Meta-Llama-3-8B/ --tokenizer_path Meta-Llama-3-8B/tokenizer.model --max_seq_len 128 --max_batch_size 4
Отлаженные модели были обучены для диалоговых приложений. Чтобы получить ожидаемые функции и производительность для них, необходимо следовать определенному форматированию, определенному в ChatFormat
: приглашение начинается со специального токена <|begin_of_text|>
, после которого следует одно или несколько сообщений. Каждое сообщение начинается с тега <|start_header_id|>
, ролевой system
, user
или assistant
и тега <|end_header_id|>
. После двойной новой строки nn
следует содержимое сообщения. Конец каждого сообщения отмечается токеном <|eot_id|>
.
Вы также можете развернуть дополнительные классификаторы для фильтрации входных и выходных данных, которые считаются небезопасными. См. репозиторий llama-recipes, где приведен пример добавления средства проверки безопасности ко входным и выходным данным вашего кода вывода.
Примеры использования llama-3-8b-chat:
torchrun --nproc_per_node 1 example_chat_completion.py --ckpt_dir Meta-Llama-3-8B-Instruct/ --tokenizer_path Meta-Llama-3-8B-Instruct/tokenizer.model --max_seq_len 512 --max_batch_size 6
Llama 3 — это новая технология, использование которой сопряжено с потенциальными рисками. Тестирование, проведенное на сегодняшний день, не охватило — и не могло — охватить все сценарии. Чтобы помочь разработчикам устранить эти риски, мы создали Руководство по ответственному использованию.
Сообщайте о любых «ошибках» программного обеспечения или других проблемах с моделями одним из следующих способов:
Сообщить о проблемах с моделью: https://github.com/meta-llama/llama3/issues.
Сообщить о рискованном контенте, созданном моделью: Developers.facebook.com/llama_output_feedback.
Сообщать об ошибках и проблемах безопасности: facebook.com/whitehat/info.
См. MODEL_CARD.md.
Наша модель и весы лицензированы для исследователей и коммерческих организаций, что соответствует принципам открытости. Наша миссия — расширить возможности отдельных лиц и отрасли с помощью этой возможности, одновременно создавая среду открытий и этических достижений в области искусственного интеллекта.
См. файл ЛИЦЕНЗИИ, а также нашу Политику допустимого использования.
Здесь можно найти часто задаваемые вопросы, которые будут обновляться по мере возникновения новых вопросов.