Llama 2 を利用した、自己ホスト型のオフラインの ChatGPT のようなチャットボットです。100% プライベートであり、デバイスからデータが流出することはありません。
新規: Code Llama モデルと Nvidia GPU のサポート。
umbrel.com (人材を募集しています) »
現在、LlamaGPT は次のモデルをサポートしています。カスタム モデルの実行のサポートはロードマップにあります。
機種名 | モデルサイズ | モデルのダウンロード サイズ | 必要なメモリ |
---|---|---|---|
Nous Hermes Llama 2 7B チャット (GGML q4_0) | 7B | 3.79GB | 6.29GB |
Nous Hermes Llama 2 13B チャット (GGML q4_0) | 13B | 7.32GB | 9.82GB |
Nous Hermes Llama 2 70B チャット (GGML q4_0) | 70B | 38.87GB | 41.37GB |
コード ラマ 7B チャット (GGUF Q4_K_M) | 7B | 4.24GB | 6.74GB |
コード ラマ 13B チャット (GGUF Q4_K_M) | 13B | 8.06GB | 10.56GB |
Phind コード ラマ 34B チャット (GGUF Q4_K_M) | 34B | 20.22GB | 22.72GB |
umbrelOS ホームサーバー上で LlamaGPT をワンクリックで実行できます。 Umbrel App Store からインストールするだけです。
Docker と Xcode がインストールされていることを確認してください。
次に、このリポジトリのクローンを作成し、それにcd
します。
git clone https://github.com/getumbrel/llama-gpt.git
cd llama-gpt
次のコマンドで LlamaGPT を実行します。
./run-mac.sh --model 7b
LlamaGPT には http://localhost:3000 でアクセスできます。
13B または 70B チャット モデルを実行するには、
7b
それぞれ13b
または70b
に置き換えます。 7B、13B、または 34B コード Llama モデルを実行するには、7b
それぞれcode-7b
、code-13b
、またはcode-34b
に置き換えます。
LlamaGPT を停止するには、ターミナルでCtrl + C
押します。
LlamaGPT は、任意の x86 または arm64 システムで実行できます。 Docker がインストールされていることを確認してください。
次に、このリポジトリのクローンを作成し、それにcd
します。
git clone https://github.com/getumbrel/llama-gpt.git
cd llama-gpt
次のコマンドで LlamaGPT を実行します。
./run.sh --model 7b
または、Nvidia GPU をお持ちの場合は、次のように--with-cuda
フラグを使用して CUDA サポート付きで LlamaGPT を実行できます。
./run.sh --model 7b --with-cuda
LlamaGPT にはhttp://localhost:3000
でアクセスできます。
13B または 70B チャット モデルを実行するには、
7b
それぞれ13b
または70b
に置き換えます。 Code Llama 7B、13B、または 34B モデルを実行するには、7b
それぞれcode-7b
、code-13b
、またはcode-34b
に置き換えます。
LlamaGPT を停止するには、ターミナルでCtrl + C
押します。
注: 最初の実行では、モデルが
/models
ディレクトリにダウンロードされるまでに時間がかかる場合があります。数分間、次のような出力が大量に表示される場合もありますが、これは正常です。llama-gpt-llama-gpt-ui-1 | [INFO wait] Host [llama-gpt-api-13b:8000] not yet available...
モデルが自動的にダウンロードおよびロードされ、API サーバーが実行されると、次のような出力が表示されます。
llama-gpt-ui_1 | ready - started server on 0.0.0.0:3000, url: http://localhost:3000
これで、http://localhost:3000 で LlamaGPT にアクセスできるようになります。
まず、Kubernetes クラスターが実行中であり、 kubectl
がそれと対話するように構成されていることを確認します。
次に、このリポジトリのクローンを作成し、それにcd
します。
Kubernetes にデプロイするには、まず名前空間を作成します。
kubectl create ns llama
次に、 /deploy/kubernetes
ディレクトリの下にマニフェストを適用します。
kubectl apply -k deploy/kubernetes/. -n llama
通常の方法でサービスを公開します。
llama-cpp-python のおかげで、OpenAI API のドロップイン代替機能がhttp://localhost:3001
で入手可能です。 http://localhost:3001/docs を開いて API ドキュメントを参照してください。
次のハードウェア上で、デフォルトのシステム プロンプトとユーザー プロンプト「宇宙はどのように拡張しますか?」を使用して LlamaGPT モデルをテストしました。決定的な結果を保証するには温度 0 で。生成速度は最初の 10 世代の平均です。
プル リクエストを開いて、このテーブルに独自のベンチマークを自由に追加してください。
デバイス | 生成速度 |
---|---|
M1 Max MacBook Pro (64GB RAM) | 54 トークン/秒 |
GCP c2-standard-16 vCPU (64 GB RAM) | 16.7 トークン/秒 |
Ryzen 5700G 4.4GHz 4c (16 GB RAM) | 11.50 トークン/秒 |
GCP c2-standard-4 vCPU (16 GB RAM) | 4.3 トークン/秒 |
アンブレル ホーム (16GB RAM) | 2.7 トークン/秒 |
ラズベリーパイ 4 (8GB RAM) | 0.9トークン/秒 |
デバイス | 生成速度 |
---|---|
M1 Max MacBook Pro (64GB RAM) | 20トークン/秒 |
GCP c2-standard-16 vCPU (64 GB RAM) | 8.6 トークン/秒 |
GCP c2-standard-4 vCPU (16 GB RAM) | 2.2 トークン/秒 |
アンブレル ホーム (16GB RAM) | 1.5トークン/秒 |
デバイス | 生成速度 |
---|---|
M1 Max MacBook Pro (64GB RAM) | 4.8 トークン/秒 |
GCP e2-standard-16 vCPU (64 GB RAM) | 1.75 トークン/秒 |
GCP c2-standard-16 vCPU (64 GB RAM) | 1.62トークン/秒 |
デバイス | 生成速度 |
---|---|
M1 Max MacBook Pro (64GB RAM) | 41 トークン/秒 |
デバイス | 生成速度 |
---|---|
M1 Max MacBook Pro (64GB RAM) | 25トークン/秒 |
デバイス | 生成速度 |
---|---|
M1 Max MacBook Pro (64GB RAM) | 10.26 トークン/秒 |
私たちは LlamaGPT にさらに機能を追加することを検討しています。ロードマップはここでご覧いただけます。最も高い優先順位は次のとおりです。
これらのいずれかについて支援したい開発者の方は、課題を開いて、この課題に取り組む最善の方法について話し合ってください。支援したいと考えているが、どこから始めればよいかわからない場合は、特に新しい寄稿者に優しいとマークされているこれらの問題を確認してください。
LlamaGPT を可能にしてくれた次の開発者とチームに多大な感謝を申し上げます。
umbrel.com