turbopilotダウンロード - turbopilotソースコードのダウンロード

turbopilot

C/C++

v0.2.1

ダウンロード

ターボパイロット

Turbopilot は、2023 年 9 月 30 日をもって非推奨となり、アーカイブされました。コミュニティのニーズをよりよく満たす成熟したソリューションは他にもあります。ツールを停止するという私の決定と、推奨される代替手段については、私のブログ投稿を参照してください。

TurboPilot は、llama.cpp の背後にあるライブラリを使用して 4GiB の RAM で 60 億パラメータの Salesforce Codegen モデルを実行するセルフホスト型コパイロットクローンです。これは、fauxpilot プロジェクトに大きく基づいており、そこからインスピレーションを受けています。

注意: これは現時点では安定したツールではなく概念実証です。このバージョンのプロジェクトではオートコンプリートがかなり遅くなります。自由に遊んでみてください。ただし、実際の走行距離は異なる場合があります。

fauxpilot プラグインを介して実行されているターボパイロットの画面記録

StableCode 3B をサポートするようになりました。TheBlokeの量子化 GGML モデルを使用し、 -m stablecode設定するだけです。

新規: リファクタリング + 簡素化: ソースコードが改善され、Turbopilot への新しいモデルの拡張と追加が容易になりました。システムは複数の種類のモデルをサポートするようになりました

新規: Wizardcoder、Starcoder、Santacoder のサポート- Turbopilot は、より多くのプログラミング言語と「中間補完」サポートを提供する最先端のローカルコード補完モデルをサポートするようになりました。

?貢献する

このプロジェクトおよび対応する GGML フォークへの PR は大歓迎です。

フォークを作成し、変更を加えてから、PR を開きます。

はじめる

プロジェクトを試す最も簡単な方法は、前処理されたモデルを取得し、Docker でサーバーを実行することです。

モデルの取得

モデルを取得するには 2 つのオプションがあります

オプション A: 直接ダウンロード - 簡単、クイックスタート

事前変換および事前量子化されたモデルは、Huggingface からダウンロードできます。

低 RAM ユーザー (4 ～ 8 GiB) には StableCode をお勧めし、高パワーユーザー (16 GiB 以上の RAM、ディスクリート GPU または Apple シリコン) には WizardCoder をお勧めします。

Turbopilot は、 v0.0.5以前のビルドの第 1 世代 codegen モデルを引き続きサポートしています。ただし、古いモデルは再量子化する必要があります。

モデルの完全なカタログは MODELS.md にあります。

オプション B: モデルを自分で変換する - ハードでより柔軟な

モデルの量子化を自分で試してみたい場合は、このガイドに従ってください。

TurboPilot サーバーの実行

最新のバイナリをダウンロードし、ルートプロジェクトフォルダーに抽出します。バイナリが OS に提供されていない場合、または自分でビルドしたい場合は、ビルド手順に従ってください。

走る：

./turbopilot -m starcoder -f ./models/santacoder-q4_0.bin

アプリケーションはポート18080でサーバーを起動する必要があります。これは-pオプションで変更できますが、これは vscode-fauxpilot が接続しようとするデフォルトのポートであるため、自分が何をしているのかよくわかっていない限り、これはそのままにしておく方がよいでしょう。やってます。

マルチコアシステムを使用している場合は、 -tオプションを使用して使用する CPU の数を制御できます。たとえば、6 コア/12 スレッドの AMD Ryzen 5000 を使用しています。

./codegen-serve -t 6 -m starcoder -f ./models/santacoder-q4_0.bin

従来の codegen モデルを実行します。代わりに、モデルタイプフラグ-m codegenに変更するだけです。

注: Turbopilot 0.1.0 以降では、codegen モデルの v0.0.5 以前の古いモデルが再量子化されます。更新された量子化コード生成モデルの提供に取り組んでいます

? Docker からの実行

ここで提供されている事前に構築された Docker イメージから Turbopilot を実行することもできます

モデルを個別にダウンロードする必要がありますが、その後、次のコマンドを実行できます。

docker run --rm -it 
  -v ./models:/models 
  -e THREADS=6 
  -e MODEL_TYPE=starcoder 
  -e MODEL= " /models/santacoder-q4_0.bin " 
  -p 18080:18080 
  ghcr.io/ravenscroftj/turbopilot:latest

ドッカーとCUDA

リリース v0.0.5 の時点で、ターボコードは CUDA 推論をサポートするようになりました。 cuda 対応コンテナを実行するには、nvidia-docker を有効にし、cuda タグ付きバージョンを使用して、次のように GPU にアクセスできる--gpus=allを docker に渡す必要があります。

docker run --gpus=all --rm -it 
  -v ./models:/models 
  -e THREADS=6 
  -e MODEL_TYPE=starcoder 
  -e MODEL= " /models/santacoder-q4_0.bin " 
  -e GPU_LAYERS=32 
  -p 18080:18080 
  ghcr.io/ravenscroftj/turbopilot:v0.2.0-cuda11-7

十分な大きさの GPU がある場合、 GPU_LAYERS設定すると、データを前後にコピーするのではなく、ターボパイロットが計算を GPU に完全にオフロードできるようになり、推論が大幅に高速化されます。

使用している場合は、 ghcr.io/ravenscroftj/turbopilot:v0.1.0-cuda11 /ravenscroftj/turbopilot:v0.1.0-cuda11 をghcr.io/ravenscroftj/turbopilot:v0.2.0-cuda12-0またはghcr.io/ravenscroftj/turbopilot:v0.2.0-cuda12-2に置き換えます。それぞれ CUDA 12.0 または 12.2。

このコンテナーを実行するには、後で CUDA 11 または CUDA 12 が必要になります。 nvidia-smi実行すると、 /app/turbopilotリストに表示されるはずです。

実行可能ファイルとCUDA

v0.0.5 では、Linux 実行可能ファイルの CUDA バージョンが利用可能です - マシンに libcublas 11 がインストールされている必要があります - いつか ubuntu debs をビルドするかもしれませんが、今のところは docker で実行する方が便利かもしれません。 CUDA GPU。

--nglオプションを使用して GPU オフロードを使用できます。

APIの使用

公式 Copilot プラグインのサポート

公式 VS Code コパイロットプラグインのサポートが進行中です (チケット #11 を参照)。 API は OpenAI と広範な互換性を持つようになりました。

FauxPilot プラグインでの API の使用

VSCode の API を使用するには、vscode-fauxpilot プラグインをお勧めします。インストールしたら、settings.json ファイル内のいくつかの設定を変更する必要があります。

設定を開き (CTRL/CMD + SHIFT + P)、 Preferences: Open User Settings (JSON)
次の値を追加します。

{
    ... // other settings

    "fauxpilot.enabled" : true ,
    "fauxpilot.server" : " http://localhost:18080/v1/engines " ,
}

CTRL + SHIFT + Pでフェイクパイロットを有効にし、 Enable Fauxpilotを選択できるようになりました。

キーストロークを行うと、プラグインは実行中のcodegen-serveプロセスに API 呼び出しを送信します。その後、各リクエストが完了するまで待機してから、さらにリクエストを送信します。

APIを直接呼び出す

http://localhost:18080/v1/engines/codegen/completionsにリクエストを送信すると、同じ Copilot エンドポイントと同様に動作します。

例えば：

curl --request POST 
  --url http://localhost:18080/v1/engines/codegen/completions 
  --header ' Content-Type: application/json ' 
  --data ' {
 "model": "codegen",
 "prompt": "def main():",
 "max_tokens": 100
} '

次のようなものが得られるはずです:

{
 "choices" : [
  {
   "logprobs" : null ,
   "index" : 0 ,
   "finish_reason" : " length " ,
   "text" : " n  """ Main entry point for this script. """n  logging.getLogger().setLevel(logging.INFO) n  logging.basicConfig(format=('%(levelname)s: %(message)s')) nn  parser = argparse.ArgumentParser( n      description=__doc__, n      formatter_class=argparse.RawDescriptionHelpFormatter, n      epilog=__doc__) n  "
  }
 ],
 "created" : 1681113078 ,
 "usage" : {
  "total_tokens" : 105 ,
  "prompt_tokens" : 3 ,
  "completion_tokens" : 102
 },
 "object" : " text_completion " ,
 "model" : " codegen " ,
 "id" : " 01d7a11b-f87c-4261-8c03-8c78cbe4b067 "
}

既知の制限事項

現在、Turbopilot は一度に 1 つの GPU デバイスのみをサポートします (複数のデバイスを使用しようとしません)。

?謝辞

このプロジェクトは、GGML と llama.cpp に関する Georgi Gerganov の取り組みがなければ不可能でした。
これは完全に fauxpilot からインスピレーションを得たもので、私は少しの間実験しましたが、GPU なしでモデルを動作させてみたかったのです。
プロジェクトのフロントエンドは Venthe の vscode-fauxpilot プラグインを利用しています
このプロジェクトでは、Salesforce Codegen モデルを使用します。
GPT-J アーキテクチャで実行できるように Salesforce モデルを変換する作業を行った Moyix に感謝します。これにより速度が向上するだけでなく、既存の gpt-j サンプルコードを使用してモデルを GGML に移植することもはるかに簡単になりました。
モデルサーバーは CrowCPP を使用して提案を提供します。
詳細については、CodeGen の元の科学論文を確認してください。

拡大する

追加情報