クイックスタート|ドキュメント|ゼロからヒーローへのガイド
Llama Stack は、生成 AI アプリケーションを市場に投入するために必要な一連のコア ビルディング ブロックを定義および標準化します。これらの構成要素は、その実装を提供する広範なサービス プロバイダーと相互運用可能な API の形式で提供されます。
私たちの目標は、さまざまな導入環境で運用できる事前にパッケージ化された実装を提供することです。開発者はデスクトップまたはモバイル デバイスでの反復作業を開始し、オンプレミスまたはパブリック クラウドの導入にシームレスに移行できます。この移行のどの時点でも、同じ API セットと同じ開発者エクスペリエンスが利用可能です。
⚠️ 注スタック API は急速に改善されていますが、まだ進行中の作業が多く、直接の貢献だけでなくフィードバックも歓迎しています。
現在、次の API の実用的な実装が行われています。
推論
安全性
メモリ
エージェント
評価
テレメトリー
これらの API に加えて、関連リソースを操作するための API も関連付けました (概念を参照)。
モデル
シールド
メモリバンク
評価タスク
データセット
スコアリング関数
また、間もなくリリースされる次の API にも取り組んでいます。
トレーニング後
合成データの生成
報酬のスコアリング
各 API 自体は、REST エンドポイントのコレクションです。
他のフレームワークとは異なり、Llama スタックはサービス指向の REST API ファーストのアプローチで構築されています。このような設計では、ローカル デプロイメントからリモート デプロイメントへのシームレスな移行が可能になるだけでなく、設計がより宣言的になります。この制限により、開発者エクスペリエンスがよりシンプルで堅牢になると私たちは考えています。これは必然的に表現力とのトレードオフになりますが、API を正しく利用すれば、非常に強力なプラットフォームを実現できる可能性があります。
私たちは、設計する一連の API が構成可能であることを期待しています。エージェントは抽象的に { Inference、Memory、Safety } API に依存しますが、実際の実装の詳細は気にしません。安全性自体はモデル推論を必要とする場合があるため、推論 API に依存する可能性があります。
当社は、一般的な展開シナリオ向けのターンキー ソリューションを提供する予定です。 Llama Stack サーバーを AWS またはプライベート データセンターにデプロイするのは簡単であるはずです。これらのいずれかを使用すると、開発者は強力なエージェント アプリ、モデルの評価、サービスの微調整を数分で開始できるようになります。これらはすべて、同じ均一な可観測性と開発者エクスペリエンスをもたらすはずです。
Meta が開始したプロジェクトとして、私たちは Meta の Llama シリーズのモデルに明示的に焦点を当てることから始めました。幅広いオープン モデルをサポートするのは簡単な作業ではないため、私たちが最もよく理解しているモデルから始めたいと考えています。
効率的な推論、スケーラブルなベクトル ストア、または強力な可観測性ソリューションを提供するプロバイダーの活気に満ちたエコシステムがあります。私たちは、開発者がユースケースに最適な実装を簡単に選択できるようにしたいと考えています。また、新しいプロバイダーがエコシステムに簡単に参加して参加できるようにしたいと考えています。
さらに、API だけでなくリソース (モデルなど) もフェデレーションできるように、スタックのすべての要素を設計しました。
APIプロバイダビルダー | 環境 | エージェント | 推論 | メモリ | 安全性 | テレメトリー |
---|---|---|---|---|---|---|
メタリファレンス | 単一ノード | ✔️ | ✔️ | ✔️ | ✔️ | ✔️ |
花火 | ホストされている | ✔️ | ✔️ | ✔️ | ||
AWS の基盤 | ホストされている | ✔️ | ✔️ | |||
一緒に | ホストされている | ✔️ | ✔️ | ✔️ | ||
オラマ | 単一ノード | ✔️ | ||||
TGI | ホスト型および単一ノード | ✔️ | ||||
彩度 | 単一ノード | ✔️ | ||||
PGベクトル | 単一ノード | ✔️ | ||||
PyTorch 実行トーチ | オンデバイス iOS | ✔️ | ✔️ |
分布 | ラマ スタック ドッカー | この配布を開始する |
---|---|---|
メタリファレンス | llamastack/distribution-meta-reference-gpu | ガイド |
量子化されたメタリファレンス | llamastack/distribution-meta-reference-quantized-gpu | ガイド |
オラマ | ラマスタック/ディストリビューション-オラマ | ガイド |
TGI | ラマスタック/ディストリビューション-tgi | ガイド |
一緒に | ラマスタック/一緒に配布 | ガイド |
花火 | ラマスタック/配布-花火 | ガイド |
このリポジトリをインストールするには 2 つの方法があります。
パッケージとしてインストール: 次のコマンドを実行して、PyPI からリポジトリを直接インストールできます。
pip インストール ラマスタック
ソースからインストール: ソース コードからインストールする場合は、次の手順に従います。
mkdir -p ~/local cd ~/local git clone [email protected]:meta-llama/llama-stack.git conda create -n stack python=3.10 conda activate stack cd llama-stack $CONDA_PREFIX/bin/pip install -e 。
詳細については、ドキュメントページをご覧ください。
CLI リファレンス
llama
CLI を使用して Llama モデルを操作し (ダウンロード、プロンプトを確認)、Llama スタック ディストリビューションを構築/開始するためのガイド。
はじめる
Llama スタック サーバーを起動するためのクイック ガイド。
シンプルなテキストとビジョン推論の llama_stack_client API の使用方法を詳しく説明する Jupyter ノートブック
Deeplearning.ai の新しい Llama 3.2 コースの完全な Llama Stack レッスン Colab ノートブック。
コード サンプルを使用して、llama スタックのすべての主要コンポーネントをガイドするゼロからヒーロー ガイド。
貢献する
新しい API プロバイダーの追加では、新しい API プロバイダーを追加する方法について説明します。
言語 | クライアントSDK | パッケージ |
---|---|---|
パイソン | ラマスタッククライアントPython | |
迅速 | ラマスタッククライアントスイフト | |
ノード | ラマスタッククライアントノード | |
コトリン | ラマスタッククライアントKotlin |
好みの言語で Llama スタック サーバーに接続するためのクライアント SDK を確認してください。Python、node、swift、kotlin プログラミング言語から選択して、アプリケーションを迅速に構築できます。
llama-stack-apps リポジトリでは、Llama スタック サーバーと通信するためのクライアント SDK を使用したその他のサンプル スクリプトを見つけることができます。