ดาวน์โหลด turbopilot - ดาวน์โหลดซอร์สโค้ด turbopilot

turbopilot

ซี/ซี++

v0.2.1

ดาวน์โหลด

เทอร์โบไพลอต

Turbopilot เลิกใช้แล้ว/เก็บถาวร ณ วันที่ 30/9/23 ยังมีโซลูชันที่สมบูรณ์อื่นๆ ที่ตอบสนองความต้องการของชุมชนได้ดีกว่า โปรดอ่านโพสต์บนบล็อกของฉันเกี่ยวกับการตัดสินใจดาวน์เครื่องมือและทางเลือกอื่นที่แนะนำ

TurboPilot เป็นโคลน Copilot ที่โฮสต์ด้วยตนเอง ซึ่งใช้ไลบรารีเบื้องหลัง llama.cpp เพื่อรันโมเดล Salesforce Codegen พารามิเตอร์ 6 พันล้านพารามิเตอร์ใน RAM ขนาด 4GiB มีพื้นฐานมาจากและได้รับแรงบันดาลใจจากโครงการ fauxpilot

หมายเหตุ: นี่เป็นข้อพิสูจน์แนวคิดในตอนนี้ ไม่ใช่เครื่องมือที่มีความเสถียร การเติมข้อความอัตโนมัติค่อนข้างช้าในโปรเจ็กต์เวอร์ชันนี้ รู้สึกอิสระที่จะเล่นกับมัน แต่ระยะทางของคุณอาจแตกต่างกันไป

การบันทึกหน้าจอของ turbopilot ที่ทำงานผ่านปลั๊กอิน fauxpilot

ขณะนี้รองรับ StableCode 3B Instruct เพียงใช้โมเดล Quantized GGML ของ TheBloke และ set -m stablecode

ใหม่: ปรับโครงสร้างใหม่ + ทำให้ง่ายขึ้น : ซอร์สโค้ดได้รับการปรับปรุงเพื่อให้ง่ายต่อการขยายและเพิ่มโมเดลใหม่ให้กับ Turbopilot ขณะนี้ระบบรองรับโมเดลได้หลายรสชาติ

ใหม่: รองรับ Wizardcoder, Starcoder, Santacoder - ตอนนี้ Turbopilot รองรับโมเดลการเติมโค้ดท้องถิ่นที่ทันสมัย ซึ่งให้ภาษาการเขียนโปรแกรมมากขึ้นและรองรับ "เติมตรงกลาง"

- มีส่วนร่วม

ยินดีต้อนรับการประชาสัมพันธ์โครงการนี้และทางแยก GGML ที่เกี่ยวข้อง

ทำทางแยก ทำการเปลี่ยนแปลง จากนั้นเปิด PR

เริ่มต้นใช้งาน

วิธีที่ง่ายที่สุดในการลองใช้โปรเจ็กต์คือการหยิบโมเดลที่ประมวลผลไว้ล่วงหน้าแล้วรันเซิร์ฟเวอร์ในนักเทียบท่า

รับโมเดล

คุณมี 2 ตัวเลือกในการรับแบบจำลอง

ตัวเลือก A: ดาวน์โหลดโดยตรง - ง่าย เริ่มต้นอย่างรวดเร็ว

คุณสามารถดาวน์โหลดโมเดลที่แปลงล่วงหน้าและกำหนดปริมาณล่วงหน้าได้จาก Huggingface

สำหรับผู้ใช้ RAM ต่ำ (4-8 GiB) ฉันขอแนะนำ StableCode และสำหรับผู้ใช้พลังงานสูง (16+ GiB RAM, GPU แยกหรือแอปเปิ้ลซิลิคอน) ฉันขอแนะนำ WizardCoder

Turbopilot ยังคงรองรับโมเดลโค้ดเจนรุ่นแรกตั้งแต่ v0.0.5 และรุ่นก่อนหน้า แม้ว่ารุ่นเก่าจะต้องได้รับการจัดสรรใหม่ก็ตาม

คุณสามารถดูแคตตาล็อกรุ่นทั้งหมดได้ใน MODELS.md

ตัวเลือก B: แปลงโมเดลด้วยตัวเอง - แข็งและยืดหยุ่นมากขึ้น

ปฏิบัติตามคู่มือนี้หากคุณต้องการทดลองการหาปริมาณแบบจำลองด้วยตนเอง

ใช้งานเซิร์ฟเวอร์ TurboPilot

ดาวน์โหลดไบนารีล่าสุดและแตกไฟล์ไปยังโฟลเดอร์โปรเจ็กต์รูท หากไม่มีไบนารีสำหรับระบบปฏิบัติการของคุณ หรือคุณต้องการสร้างไบนารีด้วยตนเอง ให้ปฏิบัติตามคำแนะนำในการสร้าง

วิ่ง:

./turbopilot -m starcoder -f ./models/santacoder-q4_0.bin

แอปพลิเคชันควรเริ่มต้นเซิร์ฟเวอร์บนพอร์ต 18080 คุณสามารถเปลี่ยนสิ่งนี้ได้ด้วยตัวเลือก -p แต่นี่เป็นพอร์ตเริ่มต้นที่ vscode-fauxpilot พยายามเชื่อมต่อดังนั้นคุณอาจต้องการปล่อยสิ่งนี้ไว้ตามลำพังเว้นแต่คุณจะแน่ใจว่าคุณรู้ว่าคุณทำอะไร กำลังทำอยู่

หากคุณมีระบบมัลติคอร์ คุณสามารถควบคุมจำนวน CPU ที่จะใช้ด้วยตัวเลือก -t - ตัวอย่างเช่น บน AMD Ryzen 5000 ของฉันซึ่งมี 6 คอร์/12 เธรดที่ฉันใช้:

./codegen-serve -t 6 -m starcoder -f ./models/santacoder-q4_0.bin

เพื่อรันโมเดลโค้ดเจนดั้งเดิม เพียงเปลี่ยน model type flag -m เป็น codegen แทน

หมายเหตุ: Turbopilot 0.1.0 และใหม่กว่านั้น re-quantize โมเดลโค้ดเจนของคุณ รุ่นเก่าตั้งแต่ v0.0.5 และเก่ากว่า ฉันกำลังดำเนินการจัดหาโมเดลโค้ดเจนเชิงปริมาณที่ได้รับการอัปเดต

- กำลังเรียกใช้จากนักเทียบท่า

คุณยังสามารถเรียกใช้ Turbopilot จากอิมเมจนักเทียบท่าที่สร้างไว้ล่วงหน้าที่ให้ไว้ที่นี่

คุณจะต้องดาวน์โหลดโมเดลแยกต่างหาก จากนั้นจึงเรียกใช้:

docker run --rm -it 
  -v ./models:/models 
  -e THREADS=6 
  -e MODEL_TYPE=starcoder 
  -e MODEL= " /models/santacoder-q4_0.bin " 
  -p 18080:18080 
  ghcr.io/ravenscroftj/turbopilot:latest

นักเทียบท่าและ CUDA

ตั้งแต่เปิดตัว v0.0.5 turbocode รองรับการอนุมาน CUDA แล้ว ในการรันคอนเทนเนอร์ที่เปิดใช้งาน cuda คุณจะต้องเปิดใช้งาน nvidia-docker ใช้เวอร์ชันที่ติดแท็ก cuda และส่งผ่าน --gpus=all ไปยังนักเทียบท่าที่มีสิทธิ์เข้าถึง GPU ของคุณดังนี้:

docker run --gpus=all --rm -it 
  -v ./models:/models 
  -e THREADS=6 
  -e MODEL_TYPE=starcoder 
  -e MODEL= " /models/santacoder-q4_0.bin " 
  -e GPU_LAYERS=32 
  -p 18080:18080 
  ghcr.io/ravenscroftj/turbopilot:v0.2.0-cuda11-7

หากคุณมี GPU ขนาดใหญ่เพียงพอ การตั้งค่า GPU_LAYERS จะทำให้ Turbopilot ถ่ายโอนข้อมูลการประมวลผลไปยัง GPU ของคุณได้อย่างเต็มที่ แทนที่จะคัดลอกข้อมูลย้อนหลังและไปข้างหน้า ซึ่งจะช่วยเร่งการอนุมานได้อย่างมาก

สลับ ghcr.io/ravenscroftj/turbopilot:v0.1.0-cuda11 สำหรับ ghcr.io/ravenscroftj/turbopilot:v0.2.0-cuda12-0 หรือ ghcr.io/ravenscroftj/turbopilot:v0.2.0-cuda12-2 หากคุณใช้ CUDA 12.0 หรือ 12.2 ตามลำดับ

คุณจะต้องใช้ CUDA 11 หรือ CUDA 12 ในภายหลังเพื่อเรียกใช้คอนเทนเนอร์นี้ คุณควรจะเห็นรายการ /app/turbopilot เมื่อคุณรัน nvidia-smi

ปฏิบัติการได้และ CUDA

ตั้งแต่ v0.0.5 เวอร์ชัน CUDA ของไฟล์ปฏิบัติการ linux นั้นพร้อมใช้งาน - จำเป็นต้องติดตั้ง libcublas 11 บนเครื่อง - ฉันอาจสร้าง debs ubuntu ในบางจุด แต่ตอนนี้การทำงานใน docker อาจสะดวกกว่าถ้าคุณต้องการใช้ CUDA GPU

คุณสามารถใช้การถ่าย GPU ผ่านตัวเลือก --ngl

การใช้ API

รองรับปลั๊กอิน Copilot อย่างเป็นทางการ

การสนับสนุนปลั๊กอิน VS Code copilot อย่างเป็นทางการอยู่ระหว่างดำเนินการ (ดูตั๋ว #11) API ควรเข้ากันได้กับ OpenAI ในวงกว้างแล้ว

การใช้ API กับปลั๊กอิน FauxPilot

หากต้องการใช้ API จาก VSCode ฉันขอแนะนำปลั๊กอิน vscode-fauxpilot เมื่อคุณติดตั้งแล้ว คุณจะต้องเปลี่ยนการตั้งค่าบางอย่างในไฟล์ settings.json

เปิดการตั้งค่า (CTRL/CMD + SHIFT + P) และเลือก Preferences: Open User Settings (JSON)
เพิ่มค่าต่อไปนี้:

{
    ... // other settings

    "fauxpilot.enabled" : true ,
    "fauxpilot.server" : " http://localhost:18080/v1/engines " ,
}

ตอนนี้คุณสามารถเปิดใช้งาน fauxpilot ด้วย CTRL + SHIFT + P และเลือก Enable Fauxpilot

ปลั๊กอินจะส่งการเรียก API ไปยังกระบวนการ codegen-serve ที่ทำงานอยู่เมื่อคุณทำการกดแป้นพิมพ์ จากนั้นจะรอให้แต่ละคำขอเสร็จสิ้นก่อนที่จะส่งคำขอเพิ่มเติม

เรียก API โดยตรง

คุณสามารถส่งคำขอไปยัง http://localhost:18080/v1/engines/codegen/completions ซึ่งจะทำงานเหมือนกับจุดสิ้นสุด Copilot เดียวกัน

ตัวอย่างเช่น:

curl --request POST 
  --url http://localhost:18080/v1/engines/codegen/completions 
  --header ' Content-Type: application/json ' 
  --data ' {
 "model": "codegen",
 "prompt": "def main():",
 "max_tokens": 100
} '

ควรได้รับสิ่งนี้ให้กับคุณ:

{
 "choices" : [
  {
   "logprobs" : null ,
   "index" : 0 ,
   "finish_reason" : " length " ,
   "text" : " n  """ Main entry point for this script. """n  logging.getLogger().setLevel(logging.INFO) n  logging.basicConfig(format=('%(levelname)s: %(message)s')) nn  parser = argparse.ArgumentParser( n      description=__doc__, n      formatter_class=argparse.RawDescriptionHelpFormatter, n      epilog=__doc__) n  "
  }
 ],
 "created" : 1681113078 ,
 "usage" : {
  "total_tokens" : 105 ,
  "prompt_tokens" : 3 ,
  "completion_tokens" : 102
 },
 "object" : " text_completion " ,
 "model" : " codegen " ,
 "id" : " 01d7a11b-f87c-4261-8c03-8c78cbe4b067 "
}

ข้อจำกัดที่ทราบ

ปัจจุบัน Turbopilot รองรับอุปกรณ์ GPU ครั้งละหนึ่งเครื่องเท่านั้น (จะไม่พยายามใช้อุปกรณ์หลายเครื่อง)

- รับทราบ

โครงการนี้คงเป็นไปไม่ได้หากปราศจากงานของ Georgi Gerganov ใน GGML และ llama.cpp
ได้รับแรงบันดาลใจมาจาก fauxpilot โดยสิ้นเชิง ซึ่งฉันได้ทดลองมาสักระยะหนึ่งแล้ว แต่อยากลองทำให้โมเดลทำงานได้โดยไม่ต้องใช้ GPU
ส่วนหน้าของโปรเจ็กต์ขับเคลื่อนโดยปลั๊กอิน vscode-fauxpilot ของ Venthe
โปรเจ็กต์ใช้โมเดล Salesforce Codegen
ขอขอบคุณ Moyix สำหรับงานของเขาในการแปลงโมเดล Salesforce ให้ทำงานในสถาปัตยกรรม GPT-J สิ่งนี้ไม่เพียงแต่ให้ประโยชน์ด้านความเร็วเท่านั้น แต่ยังช่วยให้ฉันย้ายโมเดลไปยัง GGML ได้ง่ายขึ้นมากโดยใช้โค้ดตัวอย่าง gpt-j ที่มีอยู่
เซิร์ฟเวอร์โมเดลใช้ CrowCPP เพื่อให้คำแนะนำ
ตรวจสอบเอกสารทางวิทยาศาสตร์ต้นฉบับสำหรับ CodeGen สำหรับข้อมูลเพิ่มเติม

ขยาย

ข้อมูลเพิ่มเติม

เวอร์ชัน v0.2.1
ประเภท ซี/ซี++
เวลาอัปเดต 2024-12-27
ขนาด 1.67MB
มาจาก Github

แอปที่เกี่ยวข้อง

cpp peglib

2025-01-02
vkhr

2024-12-17
carma platform

2024-12-15
qttabbar

2024-12-17
jitify

2024-12-16
kawaii gcc

2024-12-16

แนะนำสำหรับคุณ

chat.petals.dev

ซอร์สโค้ดอื่น ๆ

1.0.0
GPT Prompt Templates

ซอร์สโค้ดอื่น ๆ

1.0.0
GPTyped

ซอร์สโค้ดอื่น ๆ

GPTyped 1.0.5
cpp peglib

ซี/ซี++

1.0.0
vkhr

ซี/ซี++

1.0.0
carma platform

ซี/ซี++

carma-system-4.5.0
waymo open dataset

ซอร์สโค้ดอื่น ๆ

December 2023 Update
termwind

หมวดหมู่อื่นๆ

v2.3.0
wp functions

หมวดหมู่อื่นๆ

1.0.0

ข้อมูลที่เกี่ยวข้อง ทั้งหมด