Быстрый старт | Документация | Руководство по нулевому герою
Llama Stack определяет и стандартизирует набор основных строительных блоков, необходимых для вывода на рынок приложений генеративного ИИ. Эти строительные блоки представлены в виде совместимых API, реализации которых предоставляет широкий набор поставщиков услуг.
Наша цель — предоставить готовые реализации, которые можно будет использовать в различных средах развертывания: разработчики начинают работу с настольными компьютерами или мобильными устройствами и могут плавно переходить к развертываниям на предприятии или в общедоступном облаке. На каждом этапе этого перехода доступен один и тот же набор API и одинаковый опыт разработчика.
⚠️ Примечание. API-интерфейсы Stack быстро совершенствуются, но еще очень много работы продолжается, и мы приглашаем к отзывам, а также к прямому вкладу.
На сегодняшний день у нас есть рабочие реализации следующих API:
Вывод
Безопасность
Память
Агенты
Оценить
Телеметрия
Помимо этих API, мы также связали API для работы со связанными ресурсами (см. Концепции):
Модели
Щиты
Банки памяти
Эвалтаскс
Наборы данных
Функции оценки
Мы также работаем над следующими API, которые будут выпущены в ближайшее время:
После обучения
Генерация синтетических данных
Награда
Каждый из API представляет собой набор конечных точек REST.
В отличие от других фреймворков, Llama Stack построен на сервис-ориентированном подходе с упором на REST API. Подобный дизайн не только обеспечивает плавный переход от локального к удаленному развертыванию, но также делает дизайн более декларативным. Мы считаем, что это ограничение может привести к гораздо более простому и надежному опыту разработки. Это обязательно приведет к ухудшению выразительности, однако, если мы правильно настроим API, это может привести к созданию очень мощной платформы.
Мы ожидаем, что набор разрабатываемых нами API будет компонуемым. Агент абстрактно зависит от API {Inference, Memory, Safety}, но не заботится о фактических деталях реализации. Сама безопасность может потребовать вывода модели и, следовательно, может зависеть от API вывода.
Мы ожидаем предоставить готовые решения для популярных сценариев развертывания. Развернуть сервер Llama Stack на AWS или в частном центре обработки данных должно быть легко. Любой из них должен позволить разработчику за считанные минуты приступить к работе с мощными агентскими приложениями, оценками моделей или услугами точной настройки. Все они должны обеспечивать одинаковую наблюдаемость и одинаковый опыт разработки.
Как проект, инициированный Meta, мы начали с особого внимания к серии моделей Meta Llama. Поддержка широкого набора открытых моделей — непростая задача, и мы хотим начать с моделей, которые мы понимаем лучше всего.
Существует динамичная экосистема поставщиков, которые предоставляют эффективные логические выводы, масштабируемые хранилища векторов или мощные решения для наблюдения. Мы хотим, чтобы разработчикам было легко выбирать лучшие реализации для своих сценариев использования. Мы также хотим убедиться, что новым поставщикам будет легко подключиться и участвовать в экосистеме.
Кроме того, мы разработали каждый элемент стека таким образом, чтобы API, а также ресурсы (например, модели) могли быть объединены.
Конструктор поставщиков API | Окружающая среда | Агенты | Вывод | Память | Безопасность | Телеметрия |
---|---|---|---|---|---|---|
Мета-ссылка | Один узел | ✔️ | ✔️ | ✔️ | ✔️ | ✔️ |
Фейерверк | Хостинг | ✔️ | ✔️ | ✔️ | ||
AWS Основа | Хостинг | ✔️ | ✔️ | |||
Вместе | Хостинг | ✔️ | ✔️ | ✔️ | ||
Оллама | Один узел | ✔️ | ||||
ТГИ | Хостинг и один узел | ✔️ | ||||
Цветность | Один узел | ✔️ | ||||
ПГ вектор | Один узел | ✔️ | ||||
PyTorch | iOS на устройстве | ✔️ | ✔️ |
Распределение | Лама Стек Докер | Запустить этот дистрибутив |
---|---|---|
Мета-ссылка | llamastack/распределение-мета-ссылка-GPU | Гид |
Мета-ссылка квантованная | llamastack/распределение-мета-ссылка-квантованный-GPU | Гид |
Оллама | llamastack/распределение-ollama | Гид |
ТГИ | llamastack/распределение-tgi | Гид |
Вместе | llamastack/распределение вместе | Гид |
Фейерверк | llamastack/распределение-фейерверк | Гид |
У вас есть два способа установить этот репозиторий:
Установить как пакет . Вы можете установить репозиторий непосредственно из PyPI, выполнив следующую команду:
pip установить лама-стек
Установка из исходного кода . Если вы предпочитаете установку из исходного кода, выполните следующие действия:
mkdir -p ~/локальный cd ~/локальный git clone [email protected]:meta-llama/llama-stack.git conda создать -n стек python=3.10 conda active stack cd llama-stack $CONDA_PREFIX/bin/pip install -e .
Пожалуйста, посетите нашу страницу документации для получения более подробной информации.
Справочник по интерфейсу командной строки
Руководство по использованию CLI llama
для работы с моделями Llama (загрузка, изучение подсказок) и сборке/запуску дистрибутива Llama Stack.
Начиная
Краткое руководство по запуску сервера Llama Stack.
Блокнот Jupyter, в котором показано, как использовать простые API-интерфейсы вывода текста и визуального представления llama_stack_client.
Полная тетрадь Colab урока Llama Stack нового курса Llama 3.2 на Deeplearning.ai.
Руководство «От нуля к герою», которое проведет вас через все ключевые компоненты стека llama с примерами кода.
Содействие
Добавление нового поставщика API, чтобы узнать, как добавить нового поставщика API.
Язык | Клиентский SDK | Упаковка |
---|---|---|
Питон | лама-стек-клиент-питон | |
Быстрый | лама-стек-клиент-быстрый | |
Узел | лама-стек-клиент-узел | |
Котлин | лама-стек-клиент-котлин |
Ознакомьтесь с нашими клиентскими SDK для подключения к серверу Llama Stack на предпочитаемом вами языке. Вы можете выбрать языки программирования Python, Node, Swift и Kotlin, чтобы быстро создавать свои приложения.
Дополнительные примеры сценариев с клиентскими SDK для взаимодействия с сервером Llama Stack можно найти в нашем репозитории llama-stack-apps.