turbopilot下載 - turbopilot原始碼下載

turbopilot

C/C++

v0.2.1

下載

渦輪領航員

Turbopilot 自 2023 年 9 月 30 日起已棄用/存檔。還有其他成熟的解決方案可以更好地滿足社區的需求。請閱讀我的部落格文章，了解我放棄工具的決定以及推薦的替代方案。

TurboPilot 是一個自架的 copilot 克隆，它使用 llama.cpp 背後的函式庫在 4GiB RAM 中運行 60 億參數的 Salesforce Codegen 模型。它很大程度上基於 fauxpilot 項目並受到其啟發。

注意：這是一個概念驗證，而不是一個穩定的工具。在此版本的專案中，自動完成速度相當慢。請隨意使用它，但您的里程可能會有所不同。

透過 fauxpilot 插件運行 Turbopilot 的螢幕錄製

現在支援 StableCode 3B 指示只需使用 TheBloke 的量化 GGML 模型並設定-m stablecode 。

新增內容：重構 + 簡化：原始程式碼已改進，可以更輕鬆地向 Turbopilot 擴展和添加新模型。該系統現在支援多種風格的模型

新增功能：Wizardcoder、Starcoder、Santacoder 支援- Turbopilot 現在支援最先進的本地程式碼完成模型，該模型提供更多程式語言和「中間填充」支援。

？貢獻

非常歡迎對此專案和相應的 GGML 分支提出 PR。

建立一個分支，進行更改，然後開啟 PR。

入門

嘗試該專案的最簡單方法是取得預處理模型，然後在 docker 中執行伺服器。

取得模型

您有 2 個選項來取得模型

選項 A：直接下載 - 簡單、快速入門

您可以從 Huggingface 下載預先轉換、預先量化的模型。

對於低 RAM 用戶（4-8 GiB），我推薦 StableCode，對於高功率用戶（16+ GiB RAM、獨立 GPU 或蘋果晶片），我推薦 WizardCoder。

Turbopilot 仍然支援v0.0.5及更早版本的第一代 codegen 模型。儘管舊模型確實需要重新量化。

您可以在 MODELS.md 中找到完整的模型目錄。

選項 B：自己轉換模型 - 困難，更靈活

如果您想親自嘗試量化模型，請遵循本指南。

運行 TurboPilot 伺服器

下載最新的二進位檔案並將其解壓縮到專案根資料夾中。如果沒有為您的作業系統提供二進位文件，或者您希望自己建立它，請按照建置說明進行操作

跑步：

./turbopilot -m starcoder -f ./models/santacoder-q4_0.bin

應用程式應該在連接埠18080上啟動伺服器，您可以使用-p選項更改它，但這是 vscode-fauxpilot 嘗試連接的預設端口，因此您可能不想管它，除非您確定知道自己在做什麼。

如果您有一個多核心系統，您可以使用-t選項控制使用多少個 CPU - 例如，在我使用的具有 6 個核心/12 個執行緒的 AMD Ryzen 5000 上：

./codegen-serve -t 6 -m starcoder -f ./models/santacoder-q4_0.bin

運行舊的程式碼生成模型。只需將模型類型標誌-m更改為codegen即可。

注意：Turbopilot 0.1.0 及更高版本重新量化您的 codegen 模型 v0.0.5 及更早版本的舊模型。我正在努力提供更新的量化程式碼產生模型

？從 Docker 運行

您也可以從此處提供的預先建置 Docker 映像運行 Turbopilot

您仍然需要單獨下載模型，然後您可以運行：

docker run --rm -it 
  -v ./models:/models 
  -e THREADS=6 
  -e MODEL_TYPE=starcoder 
  -e MODEL= " /models/santacoder-q4_0.bin " 
  -p 18080:18080 
  ghcr.io/ravenscroftj/turbopilot:latest

Docker 和 CUDA

自 v0.0.5 版本起，turbocode 現在支援 CUDA 推理。為了執行支援 cuda 的容器，您需要啟用 nvidia-docker，使用 cuda 標記版本並將--gpus=all傳遞給 docker，以便存取您的 GPU，如下所示：

docker run --gpus=all --rm -it 
  -v ./models:/models 
  -e THREADS=6 
  -e MODEL_TYPE=starcoder 
  -e MODEL= " /models/santacoder-q4_0.bin " 
  -e GPU_LAYERS=32 
  -p 18080:18080 
  ghcr.io/ravenscroftj/turbopilot:v0.2.0-cuda11-7

如果您有足夠大的 GPU，那麼設定GPU_LAYERS將允許 Turbopilot 將計算完全卸載到您的 GPU 上，而不是前後複製數據，從而顯著加快推理速度。

將ghcr.io/ravenscroftj/turbopilot:v0.1.0-cuda11替換為ghcr.io/ravenscroftj/turbopilot:v0.2.0-cuda12-0或ghcr.io/ravenscroftj/turbopilot:v0.2.0-cuda12-2 （如果您使用的是）分別是 CUDA 12.0 或 12.2。

稍後您將需要 CUDA 11 或 CUDA 12 才能運行此容器。當您執行nvidia-smi時，您應該可以看到列出的/app/turbopilot 。

執行檔和 CUDA

從 v0.0.5 開始，可以使用 CUDA 版本的 linux 執行檔 - 它需要在電腦上安裝 libcublas 11 - 我可能會在某個時候建置 ubuntu debs，但現在如果您想使用CUDA GPU。

您可以透過--ngl選項使用 GPU 卸載。

使用API

支援官方 Copilot 插件

對官方 VS Code copilot 外掛程式的支援正在進行中（請參閱票證 #11）。該 API 現在應該與 OpenAI 廣泛相容。

將 API 與 FauxPilot 插件結合使用

要使用 VSCode 中的 API，我推薦 vscode-fauxpilot 插件。安裝後，您將需要更改 settings.json 檔案中的一些設定。

開啟設定 (CTRL/CMD + SHIFT + P) 並選擇Preferences: Open User Settings (JSON)
新增以下值：

{
    ... // other settings

    "fauxpilot.enabled" : true ,
    "fauxpilot.server" : " http://localhost:18080/v1/engines " ,
}

現在您可以使用CTRL + SHIFT + P啟用 fauxpilot 並選擇Enable Fauxpilot

當您按鍵時，該外掛程式將向正在運行的codegen-serve進程發送 API 呼叫。然後，它將等待每個請求完成，然後再發送進一步的請求。

直接呼叫API

您可以向http://localhost:18080/v1/engines/codegen/completions發出請求，其行為就像同一個 Copilot 端點一樣。

例如：

curl --request POST 
  --url http://localhost:18080/v1/engines/codegen/completions 
  --header ' Content-Type: application/json ' 
  --data ' {
 "model": "codegen",
 "prompt": "def main():",
 "max_tokens": 100
} '

應該給你這樣的東西：

{
 "choices" : [
  {
   "logprobs" : null ,
   "index" : 0 ,
   "finish_reason" : " length " ,
   "text" : " n  """ Main entry point for this script. """n  logging.getLogger().setLevel(logging.INFO) n  logging.basicConfig(format=('%(levelname)s: %(message)s')) nn  parser = argparse.ArgumentParser( n      description=__doc__, n      formatter_class=argparse.RawDescriptionHelpFormatter, n      epilog=__doc__) n  "
  }
 ],
 "created" : 1681113078 ,
 "usage" : {
  "total_tokens" : 105 ,
  "prompt_tokens" : 3 ,
  "completion_tokens" : 102
 },
 "object" : " text_completion " ,
 "model" : " codegen " ,
 "id" : " 01d7a11b-f87c-4261-8c03-8c78cbe4b067 "
}

已知限制

目前 Turbopilot 一次僅支援一個 GPU 裝置（它不會嘗試使用多個裝置）。

？致謝

如果沒有 Georgi Gerganov 在 GGML 和 llama.cpp 上的工作，這個計畫就不可能實現
它完全受到 fauxpilot 的啟發，我嘗試了一段時間，但想嘗試讓模型在沒有 GPU 的情況下工作
該專案的前端由 Venthe 的 vscode-fauxpilot 插件提供支援
此專案使用 Salesforce Codegen 模型。
感謝 Moyix 將 Salesforce 模型轉換為在 GPT-J 架構中運作的工作。這不僅帶來了一些速度優勢，而且還使我可以更輕鬆地使用現有的 gpt-j 範例程式碼將模型移植到 GGML
模型伺服器使用 CrowCPP 提供建議。
查看 CodeGen 的原始科學論文以了解更多資訊。

展開

附加信息

版本 v0.2.1
類型 C/C++
更新時間 2024-12-27
大小 1.67MB
來自於 Github

相關應用

vkhr

2024-12-17
carma platform

2024-12-15
cpp peglib

2025-01-02
qttabbar

2024-12-17
jitify

2024-12-16
kawaii gcc

2024-12-16

爲您推薦

chat.petals.dev

其他源碼

1.0.0
GPT Prompt Templates

其他源碼

1.0.0
GPTyped

其他源碼

GPTyped 1.0.5
vkhr

C/C++

1.0.0
carma platform

C/C++

carma-system-4.5.0
cpp peglib

C/C++

1.0.0
waymo open dataset

其他源碼

December 2023 Update
termwind

其他類別

v2.3.0
wp functions

其他類別

1.0.0

相關資訊全部