llama3_explained Скачать - llama3_explained Скачать исходный код

llama3_explained

Другой исходный код

Скачать

? Модели на обнимающемся сайте |

Мета Лама 3

Мы раскрываем возможности больших языковых моделей. Наша последняя версия Llama теперь доступна частным лицам, авторам, исследователям и предприятиям любого размера, чтобы они могли ответственно экспериментировать, внедрять инновации и масштабировать свои идеи.

Этот выпуск включает веса моделей и стартовый код для предварительно обученных и настроенных инструкций языка Llama 3, включая размеры параметров от 8B до 70B.

Этот репозиторий задуман как минимальный пример загрузки модели Llama 3 и выполнения вывода. Более подробные примеры смотрите в рецептах ламы.

скачать

Чтобы загрузить веса моделей и токенизатор, посетите веб-сайт Meta Llama и примите наше лицензионное соглашение.

После отправки запроса вы получите подписанный URL-адрес по электронной почте. Затем запустите сценарий download.sh, передав предоставленный URL-адрес при появлении запроса на начало загрузки.

Предварительное условие: убедитесь, что у вас установлены wget и md5sum . Затем запустите скрипт: ./download.sh .

Имейте в виду, что срок действия ссылки истекает через 24 часа и определенное количество загрузок. Если вы начнете видеть ошибки типа 403: Forbidden , вы всегда можете повторно запросить ссылку.

Посетите «Обнимающее лицо»

Мы также предлагаем загрузки для Hugging Face, включая трансформеры и собственные форматы llama3 . Чтобы загрузить веса из Hugging Face, выполните следующие действия:

Посетите один из репозиториев, например мета-лама/Meta-Llama-3-8B-Instruct.
Прочтите и примите лицензию. Как только ваш запрос будет одобрен, вы получите доступ ко всем моделям Llama 3. Обратите внимание, что обработка запроса часто занимает до часа.
Чтобы загрузить исходные собственные веса для использования с этим репозиторием, перейдите на вкладку «Файлы и версии» и загрузите содержимое original папки. Вы также можете загрузить их из командной строки, если вы установили pip install huggingface-hub :

huggingface-cli download meta-llama/Meta-Llama-3-8B-Instruct --include " original/* " --local-dir meta-llama/Meta-Llama-3-8B-Instruct

Для использования с преобразователями следующий фрагмент кода конвейера загрузит и кэширует веса:

  import transformers
  import torch
  
  model_id = "meta-llama/Meta-Llama-3-8B-Instruct"
  
  pipeline = transformers . pipeline (
    "text-generation" , 
    model = "meta-llama/Meta-Llama-3-8B-Instruct" ,
    model_kwargs = { "torch_dtype" : torch . bfloat16 },
    device = "cuda" ,
  )

быстрый старт

Вы можете быстро начать использовать модель Llama 3, выполнив следующие действия. Эти шаги позволят вам сделать быстрый вывод локально. Дополнительные примеры можно найти в репозитории рецептов ламы.

Клонируйте и загрузите этот репозиторий в среде conda с установленным PyTorch/CUDA.
Запустите в верхнем каталоге:
```
pip install -e .
```
Посетите веб-сайт Meta Llama и зарегистрируйтесь, чтобы загрузить модели.
После регистрации вы получите электронное письмо с URL-адресом для загрузки модели. Этот URL-адрес понадобится вам при запуске сценария download.sh.
Получив электронное письмо, перейдите к загруженному вами репозиторию llama и запустите сценарий download.sh.
- Обязательно предоставьте разрешения на выполнение скрипту download.sh.
- Во время этого процесса вам будет предложено ввести URL-адрес из электронного письма.
- Не используйте опцию «Копировать ссылку», вместо этого обязательно скопируйте ссылку из письма вручную.
После загрузки необходимой модели вы можете запустить ее локально с помощью следующей команды:

torchrun --nproc_per_node 1 example_chat_completion.py 
    --ckpt_dir Meta-Llama-3-8B-Instruct/ 
    --tokenizer_path Meta-Llama-3-8B-Instruct/tokenizer.model 
    --max_seq_len 512 --max_batch_size 6

Уведомление

Замените Meta-Llama-3-8B-Instruct/ на путь к каталогу вашей контрольной точки и Meta-Llama-3-8B-Instruct/tokenizer.model на путь к вашей модели токенизатора.
–nproc_per_node должно быть установлено на значение MP модели, которую вы используете.
При необходимости отрегулируйте параметры max_seq_len и max_batch_size .
В этом примере запускается файл example_chat_completion.py, найденный в этом репозитории, но вы можете перейти на другой файл .py.

рассуждение

Разные модели требуют разных значений параллелизма модели (MP):

Модель	член парламента
8Б	1
70Б	8

Все модели поддерживают длину последовательности до 8192 токенов, но мы предварительно выделяем кеш на основе значений max_seq_len и max_batch_size . Поэтому установите эти значения в соответствии с вашим оборудованием.

Предварительно обученная модель

Эти модели не предназначены для чата или вопросов и ответов. Подсказки должны быть настроены так, чтобы ожидаемый ответ был естественным продолжением подсказки.

Некоторые примеры см. в example_text_completion.py . Для иллюстрации см. команду ниже, чтобы запустить ее с использованием модели llama-3-8b (для nproc_per_node необходимо установить значение MP ):

torchrun --nproc_per_node 1 example_text_completion.py --ckpt_dir Meta-Llama-3-8B/ --tokenizer_path Meta-Llama-3-8B/tokenizer.model --max_seq_len 128 --max_batch_size 4

командная модель настройки

Точные настройки моделей обучаются для диалоговых приложений. Чтобы получить ожидаемые характеристики и производительность, им необходимо следовать определенному формату, определенному в ChatFormat : приглашения начинаются со специального токена <|begin_of_text|> , за которым следует одно или несколько сообщений. Каждое сообщение начинается с тега <|start_header_id|> , имеет роль system , user или assistant и заканчивается тегом <|end_header_id|> . После двойной новой строки nn следует содержание сообщения. Конец каждого сообщения отмечается токеном <|eot_id|> .

Вы также можете развернуть дополнительные классификаторы для фильтрации входных и выходных данных, которые считаются небезопасными. См. пример в репозитории llama-recipes о том, как добавить средства проверки безопасности к входным и выходным данным вашего кода вывода.

Пример использования llama-3-8b-chat:

torchrun --nproc_per_node 1 example_chat_completion.py --ckpt_dir Meta-Llama-3-8B-Instruct/ --tokenizer_path Meta-Llama-3-8B-Instruct/tokenizer.model --max_seq_len 512 --max_batch_size 6

Llama 3 — это новая технология, сопряженная с потенциальными рисками. Проведенные до сих пор тесты не охватывают и не могут охватить все ситуации. Чтобы помочь разработчикам устранить эти риски, мы разработали Руководство по ответственному использованию.

вопрос

Сообщайте об «ошибках» программного обеспечения или других проблемах с моделью одним из следующих способов:

Сообщить о проблемах с моделью: https://github.com/meta-llama/llama3/issues.
Сообщите о рисках, созданных вашей моделью: Developers.facebook.com/llama_output_feedback
Сообщайте об уязвимостях и проблемах безопасности: facebook.com/whitehat/info

модель карты

См. MODEL_CARD.md.

лицензия

Наши модели и гири лицензируются исследователям и коммерческим организациям, придерживаясь открытых принципов. Наша миссия — расширить возможности отдельных лиц и отраслей с помощью этой возможности, одновременно создавая среду открытий и этического развития ИИ.

Пожалуйста, ознакомьтесь с документом ЛИЦЕНЗИЯ, а также с нашей Политикой допустимого использования.