Llama — это доступная открытая модель большого языка (LLM), предназначенная для разработчиков, исследователей и предприятий, позволяющая создавать, экспериментировать и ответственно масштабировать свои идеи генеративного ИИ. Являясь частью основополагающей системы, она служит основой для инноваций в мировом сообществе. Несколько ключевых аспектов:
Открытый доступ : легкий доступ к новейшим большим языковым моделям, способствующий сотрудничеству и развитию между разработчиками, исследователями и организациями.
Широкая экосистема : модели Llama были загружены сотни миллионов раз, на Llama построены тысячи общественных проектов, а поддержка платформы широка: от облачных провайдеров до стартапов — мир строится с помощью Llama!
Доверие и безопасность : модели ламы являются частью комплексного подхода к доверию и безопасности, выпуская модели и инструменты, которые предназначены для обеспечения сотрудничества сообщества и поощрения стандартизации разработки и использования инструментов доверия и безопасности для генеративного искусственного интеллекта.
Наша миссия — расширить возможности отдельных лиц и отрасли с помощью этой возможности, одновременно создавая среду открытий и этических достижений в области искусственного интеллекта. Модельные веса лицензированы для исследователей и коммерческих организаций, что соответствует принципам открытости.
Модель | Дата запуска | Размеры модели | Длина контекста | токенизатор | Политика приемлемого использования | Лицензия | Модель карты |
---|---|---|---|---|---|---|---|
Лама 2 | 18.07.2023 | 7Б, 13Б, 70Б | 4К | приговор | Политика использования | Лицензия | Модель карты |
Лама 3 | 18.04.2024 | 8Б, 70Б | 8К | На основе TikToken | Политика использования | Лицензия | Модель карты |
Лама 3.1 | 23.07.2024 | 8Б, 70Б, 405Б | 128 тыс. | На основе TikToken | Политика использования | Лицензия | Модель карты |
Лама 3.2 | 25.09.2024 | 1Б, 3Б | 128 тыс. | На основе TikToken | Политика использования | Лицензия | Модель карты |
Лама 3.2-Видение | 25.09.2024 | 11Б, 90Б | 128 тыс. | На основе TikToken | Политика использования | Лицензия | Модель карты |
Чтобы загрузить веса модели и токенизатор:
Посетите сайт Мета Ламы.
Прочтите и примите лицензию.
Как только ваш запрос будет одобрен, вы получите подписанный URL-адрес по электронной почте.
Установите CLI Llama: pip install llama-stack
. ( <-- Начните здесь, если вы уже получили электронное письмо. )
Запустите llama model list
, чтобы просмотреть последние доступные модели и определить идентификатор модели, которую вы хотите загрузить. ПРИМЕЧАНИЕ . Если вам нужны более старые версии моделей, запустите llama model list --show-all
чтобы отобразить все доступные модели лам.
Запустите: llama download --source meta --model-id CHOSEN_MODEL_ID
Передайте URL-адрес, указанный при появлении запроса на начало загрузки.
Помните, что срок действия ссылок истекает через 24 часа и определенное количество загрузок. Вы всегда можете повторно запросить ссылку, если начнете видеть такие ошибки, как 403: Forbidden
.
Для запуска моделей вам необходимо установить следующие зависимости (в дополнение к файлу requirements.txt
в корневом каталоге этого репозитория):
pip install torch fairscale fire blobfile
После установки зависимостей вы можете запустить примеры сценариев (в подкаталоге llama_models/scripts/
) следующим образом:
#!/bin/bashCHECKPOINT_DIR=~/.llama/checkpoints/Meta-Llama3.1-8B-Instruct PYTHONPATH=$(git rev-parse --show-toplevel) torchrun llama_models/scripts/example_chat_completion.py $CHECKPOINT_DIR
Приведенный выше сценарий следует использовать с моделью Instruct (Chat). Для базовой модели используйте скрипт llama_models/scripts/example_text_completion.py
. Обратите внимание, что вы можете использовать эти сценарии с моделями серий Llama3 и Llama3.1.
Для запуска более крупных моделей с тензорным параллелизмом вам следует изменить следующее:
#!/bin/bashNGPUS=8 PYTHONPATH=$(git rev-parse --show-toplevel) torchrun --nproc_per_node=$NGPUS llama_models/scripts/example_chat_completion.py $CHECKPOINT_DIR --model_parallel_size $NGPUS
Для большей гибкости при выполнении вывода (включая выполнение вывода FP8) см. репозиторий Llama Stack
.
Мы также предоставляем загрузки для Hugging Face как в трансформерах, так и в родном формате llama3
. Чтобы загрузить веса из Hugging Face, выполните следующие действия:
Посетите один из репозиториев, например мета-лама/Meta-Llama-3.1-8B-Instruct.
Прочтите и примите лицензию. Как только ваш запрос будет одобрен, вам будет предоставлен доступ ко всем моделям Llama 3.1, а также к предыдущим версиям. Обратите внимание, что обработка запросов раньше занимала до одного часа.
Чтобы загрузить исходные собственные веса для использования с этим репозиторием, нажмите вкладку «Файлы и версии» и загрузите содержимое original
папки. Вы также можете загрузить их из командной строки, если вы pip install huggingface-hub
:
huggingface-cli скачать мета-llama/Meta-Llama-3.1-8B-Instruct --include "original/*" --local-dir мета-llama/Meta-Llama-3.1-8B-Instruct
ПРИМЕЧАНИЕ. Исходные собственные веса мета-ламы/Мета-Лламы-3.1-405B не будут доступны через этот репозиторий HugginFace.
Для использования с преобразователями следующий фрагмент конвейера загрузит и кэширует веса:
import Transformersimport torchmodel_id = "meta-llama/Meta-Llama-3.1-8B-Instruct"pipeline = Transformers.pipeline( "text-generation", model="meta-llama/Meta-Llama-3.1-8B-Instruct", model_kwargs = {"torch_dtype": torch.bfloat16}, устройство = "cuda", )
Вы можете установить этот репозиторий как пакет, просто выполнив pip install llama-models
Модели лам — это новая технология, использование которой сопряжено с потенциальными рисками. Тестирование, проведенное на сегодняшний день, не охватило — и не могло — охватить все сценарии. Чтобы помочь разработчикам устранить эти риски, мы создали Руководство по ответственному использованию.
Здесь можно найти часто задаваемые вопросы, которые будут обновляться по мере возникновения новых вопросов.