Aikit เป็นแพลตฟอร์มที่ครอบคลุมเพื่อเริ่มต้นโฮสต์ปรับใช้สร้างและปรับแต่งภาษาขนาดใหญ่ (LLMs) อย่างรวดเร็ว
Aikit เสนอความสามารถหลักสองประการ:
การอนุมาน : Aikit ใช้ Localai ซึ่งรองรับความสามารถและรูปแบบการอนุมานที่หลากหลาย LocalAI ให้บริการ REST API แบบเลื่อนลงที่เข้ากันได้กับ OpenAI API ดังนั้นคุณสามารถใช้ไคลเอนต์ที่เข้ากันได้ของ OpenAI API เช่น Kubectl AI, chatbot-ui และอื่น ๆ อีกมากมายเพื่อส่งคำขอไปยัง LLM!
การปรับแต่ง : Aikit เสนออินเทอร์เฟซปรับแต่งแบบปรับได้ รองรับ unsloth สำหรับประสบการณ์ที่รวดเร็วมีประสิทธิภาพหน่วยความจำและประสบการณ์การปรับจูนง่าย
สำหรับเอกสารฉบับเต็มโปรดดูเว็บไซต์ Aikit!
llama
), GPTQ หรือ EXL2 ( exllama2
) และ GGML ( llama-ggml
) และ MAMBA MODELคุณสามารถเริ่มต้นกับ Aikit ได้อย่างรวดเร็วบนเครื่องในพื้นที่ของคุณโดยไม่ต้องใช้ GPU!
docker run -d --rm -p 8080:8080 ghcr.io/sozercan/llama3.1:8b
หลังจากเรียกใช้สิ่งนี้ไปแล้วให้ไปที่ http: // localhost: 8080/แชทเพื่อเข้าถึง webui!
Aikit ให้จุดสิ้นสุดที่เข้ากันได้ของ OpenAI API เพื่อให้คุณสามารถใช้ไคลเอนต์ที่เข้ากันได้ของ OpenAI API เพื่อส่งคำขอไปยัง LLMS!
curl http://localhost:8080/v1/chat/completions -H " Content-Type: application/json " -d ' {
"model": "llama-3.1-8b-instruct",
"messages": [{"role": "user", "content": "explain kubernetes in a sentence"}]
} '
เอาต์พุตควรคล้ายกับ:
{
// ...
"model" : "llama-3.1-8b-instruct" ,
"choices" : [
{
"index" : 0 ,
"finish_reason" : "stop" ,
"message" : {
"role" : "assistant" ,
"content" : "Kubernetes is an open-source container orchestration system that automates the deployment, scaling, and management of applications and services, allowing developers to focus on writing code rather than managing infrastructure."
}
}
] ,
// ...
}
แค่ไหน! - API นั้นเข้ากันได้กับ OpenAI ดังนั้นนี่คือการแทนที่แบบดรอปอินสำหรับไคลเอนต์ที่เข้ากันได้ของ OpenAI API
Aikit มาพร้อมกับรุ่นที่ทำไว้ล่วงหน้าซึ่งคุณสามารถใช้นอกกรอบได้!
หากไม่รวมโมเดลเฉพาะคุณสามารถสร้างภาพของคุณเองและโฮสต์ในรีจิสทรีคอนเทนเนอร์ที่คุณเลือก!
บันทึก
Aikit รองรับทั้ง AMD64 และ ARM64 CPU คุณสามารถเรียกใช้คำสั่งเดียวกันกับสถาปัตยกรรมทั้งสองและ Docker จะดึงภาพที่ถูกต้องสำหรับ CPU ของคุณโดยอัตโนมัติ
ขึ้นอยู่กับความสามารถของ CPU ของคุณ Aikit จะเลือกชุดคำสั่งที่ดีที่สุดโดยอัตโนมัติ
แบบอย่าง | การเพิ่มประสิทธิภาพ | พารามิเตอร์ | สั่งการ | ชื่อนางแบบ | ใบอนุญาต |
---|---|---|---|---|---|
- ลามะ 3.2 | สั่งสอน | 1B | docker run -d --rm -p 8080:8080 ghcr.io/sozercan/llama3.2:1b | llama-3.2-1b-instruct | ลาม่า |
- ลามะ 3.2 | สั่งสอน | 3B | docker run -d --rm -p 8080:8080 ghcr.io/sozercan/llama3.2:3b | llama-3.2-3b-instruct | ลาม่า |
- ลามะ 3.1 | สั่งสอน | 8B | docker run -d --rm -p 8080:8080 ghcr.io/sozercan/llama3.1:8b | llama-3.1-8b-instruct | ลาม่า |
- ลามะ 3.1 | สั่งสอน | 70b | docker run -d --rm -p 8080:8080 ghcr.io/sozercan/llama3.1:70b | llama-3.1-70b-instruct | ลาม่า |
สั่งสอน | 8x7b | docker run -d --rm -p 8080:8080 ghcr.io/sozercan/mixtral:8x7b | mixtral-8x7b-instruct | Apache | |
สั่งสอน | 3.8b | docker run -d --rm -p 8080:8080 ghcr.io/sozercan/phi3.5:3.8b | phi-3.5-3.8b-instruct | มิกซ์ | |
- เจมม่า 2 | สั่งสอน | 2B | docker run -d --rm -p 8080:8080 ghcr.io/sozercan/gemma2:2b | gemma-2-2b-instruct | อัญมณี |
codestral 0.1 | รหัส | 22b | docker run -d --rm -p 8080:8080 ghcr.io/sozercan/codestral:22b | codestral-22b | MNLP |
บันทึก
หากต้องการเปิดใช้งานการเร่งความเร็วของ GPU โปรดดูการเร่งความเร็วของ GPU
โปรดทราบว่าความแตกต่างระหว่างส่วน CPU และ GPU คือ --gpus all
ธงในคำสั่งเพื่อเปิดใช้งานการเร่งความเร็ว GPU
แบบอย่าง | การเพิ่มประสิทธิภาพ | พารามิเตอร์ | สั่งการ | ชื่อนางแบบ | ใบอนุญาต |
---|---|---|---|---|---|
- ลามะ 3.2 | สั่งสอน | 1B | docker run -d --rm --gpus all -p 8080:8080 ghcr.io/sozercan/llama3.2:1b | llama-3.2-1b-instruct | ลาม่า |
- ลามะ 3.2 | สั่งสอน | 3B | docker run -d --rm --gpus all -p 8080:8080 ghcr.io/sozercan/llama3.2:3b | llama-3.2-3b-instruct | ลาม่า |
- ลามะ 3.1 | สั่งสอน | 8B | docker run -d --rm --gpus all -p 8080:8080 ghcr.io/sozercan/llama3.1:8b | llama-3.1-8b-instruct | ลาม่า |
- ลามะ 3.1 | สั่งสอน | 70b | docker run -d --rm --gpus all -p 8080:8080 ghcr.io/sozercan/llama3.1:70b | llama-3.1-70b-instruct | ลาม่า |
สั่งสอน | 8x7b | docker run -d --rm --gpus all -p 8080:8080 ghcr.io/sozercan/mixtral:8x7b | mixtral-8x7b-instruct | Apache | |
สั่งสอน | 3.8b | docker run -d --rm --gpus all -p 8080:8080 ghcr.io/sozercan/phi3.5:3.8b | phi-3.5-3.8b-instruct | มิกซ์ | |
- เจมม่า 2 | สั่งสอน | 2B | docker run -d --rm --gpus all -p 8080:8080 ghcr.io/sozercan/gemma2:2b | gemma-2-2b-instruct | อัญมณี |
codestral 0.1 | รหัส | 22b | docker run -d --rm --gpus all -p 8080:8080 ghcr.io/sozercan/codestral:22b | codestral-22b | MNLP |
- ฟลักซ์ 1 dev | ส่งข้อความถึงรูปภาพ | 12b | docker run -d --rm --gpus all -p 8080:8080 ghcr.io/sozercan/flux1:dev | flux-1-dev | Flux.1 [dev] ใบอนุญาตที่ไม่ใช่เชิงพาณิชย์ |
บันทึก
หากต้องการเปิดใช้งานการเร่งความเร็ว GPU บน Apple Silicon โปรดดูเอกสารประกอบเดสก์แมน Podman สำหรับข้อมูลเพิ่มเติมโปรดดูการเร่งความเร็ว GPU
Apple Silicon เป็นรันไทม์ ทดลอง และอาจเปลี่ยนแปลงได้ในอนาคต รันไทม์นี้มีความเฉพาะเจาะจงกับ Apple Silicon เท่านั้นและจะไม่ทำงานตามที่คาดไว้ในสถาปัตยกรรมอื่น ๆ รวมถึง Intel Macs
มีเพียงรุ่น gguf
เท่านั้นที่รองรับใน Apple Silicon
แบบอย่าง | การเพิ่มประสิทธิภาพ | พารามิเตอร์ | สั่งการ | ชื่อนางแบบ | ใบอนุญาต |
---|---|---|---|---|---|
- ลามะ 3.2 | สั่งสอน | 1B | podman run -d --rm --device /dev/dri -p 8080:8080 ghcr.io/sozercan/applesilicon/llama3.2:1b | llama-3.2-1b-instruct | ลาม่า |
- ลามะ 3.2 | สั่งสอน | 3B | podman run -d --rm --device /dev/dri -p 8080:8080 ghcr.io/sozercan/applesilicon/llama3.2:3b | llama-3.2-3b-instruct | ลาม่า |
- ลามะ 3.1 | สั่งสอน | 8B | podman run -d --rm --device /dev/dri -p 8080:8080 ghcr.io/sozercan/applesilicon/llama3.1:8b | llama-3.1-8b-instruct | ลาม่า |
สั่งสอน | 3.8b | podman run -d --rm --device /dev/dri -p 8080:8080 ghcr.io/sozercan/applesilicon/phi3.5:3.8b | phi-3.5-3.8b-instruct | มิกซ์ | |
- เจมม่า 2 | สั่งสอน | 2B | podman run -d --rm --device /dev/dri -p 8080:8080 ghcr.io/sozercan/applesilicon/gemma2:2b | gemma-2-2b-instruct | อัญมณี |
สำหรับข้อมูลเพิ่มเติมและวิธีปรับแต่งโมเดลหรือสร้างภาพของคุณเองโปรดดูเว็บไซต์ Aikit!