A Aikit é uma plataforma abrangente para começar rapidamente a hospedar, implantar, construir e ajustar modelos de idiomas grandes (LLMS).
Aikit oferece dois recursos principais:
Inferência : Aikit usa o Localai, que suporta uma ampla gama de recursos e formatos de inferência. O localai fornece uma API de repouso de substituição que é compatível com a API OpenAI, para que você possa usar qualquer cliente compatível com API OpenAI, como Kubectl AI, Chatbot-UI e muito mais, para enviar solicitações para abrir o LLMS!
Ajuste fino : o AIKIT oferece uma interface de ajuste fina extensível. Ele suporta UNSLOTH para uma experiência rápida, com eficiência de memória e fácil de ajuste fino.
Para documentação completa, consulte o site da AIKIT!
llama
), GPTQ ou EXL2 ( exllama2
) e GGML ( llama-ggml
) e MAMBAVocê pode começar com o Aikit rapidamente em sua máquina local sem uma GPU!
docker run -d --rm -p 8080:8080 ghcr.io/sozercan/llama3.1:8b
Depois de executar isso, navegue para http: // localhost: 8080/bate -papo para acessar o webui!
O AIKIT fornece um terminal de extremidade compatível com API OpenAI, para que você possa usar qualquer cliente compatível com API OpenAI para enviar solicitações para abrir o LLMS!
curl http://localhost:8080/v1/chat/completions -H " Content-Type: application/json " -d ' {
"model": "llama-3.1-8b-instruct",
"messages": [{"role": "user", "content": "explain kubernetes in a sentence"}]
} '
A saída deve ser semelhante a:
{
// ...
"model" : "llama-3.1-8b-instruct" ,
"choices" : [
{
"index" : 0 ,
"finish_reason" : "stop" ,
"message" : {
"role" : "assistant" ,
"content" : "Kubernetes is an open-source container orchestration system that automates the deployment, scaling, and management of applications and services, allowing developers to focus on writing code rather than managing infrastructure."
}
}
] ,
// ...
}
É isso! ? A API é compatível com o OpenAI, portanto, este é um substituto para qualquer cliente compatível com API OpenAI.
O AIKIT vem com modelos pré-fabricados que você pode usar pronta para uso!
Se não incluir um modelo específico, você sempre poderá criar suas próprias imagens e hospedar em um registro de contêineres de sua escolha!
Observação
A Aikit suporta as CPUs AMD64 e ARM64. Você pode executar o mesmo comando em qualquer arquitetura e o Docker puxará automaticamente a imagem correta da sua CPU.
Dependendo dos seus recursos da CPU, o AIKIT selecionará automaticamente o conjunto de instruções mais otimizado.
Modelo | Otimização | Parâmetros | Comando | Nome do modelo | Licença |
---|---|---|---|---|---|
? LLAMA 3.2 | Instruir | 1b | docker run -d --rm -p 8080:8080 ghcr.io/sozercan/llama3.2:1b | llama-3.2-1b-instruct | Lhama |
? LLAMA 3.2 | Instruir | 3b | docker run -d --rm -p 8080:8080 ghcr.io/sozercan/llama3.2:3b | llama-3.2-3b-instruct | Lhama |
? LLAMA 3.1 | Instruir | 8b | docker run -d --rm -p 8080:8080 ghcr.io/sozercan/llama3.1:8b | llama-3.1-8b-instruct | Lhama |
? LLAMA 3.1 | Instruir | 70B | docker run -d --rm -p 8080:8080 ghcr.io/sozercan/llama3.1:70b | llama-3.1-70b-instruct | Lhama |
Instruir | 8x7b | docker run -d --rm -p 8080:8080 ghcr.io/sozercan/mixtral:8x7b | mixtral-8x7b-instruct | Apache | |
Instruir | 3.8b | docker run -d --rm -p 8080:8080 ghcr.io/sozercan/phi3.5:3.8b | phi-3.5-3.8b-instruct | Mit | |
? Gemma 2 | Instruir | 2b | docker run -d --rm -p 8080:8080 ghcr.io/sozercan/gemma2:2b | gemma-2-2b-instruct | Gemma |
⌨️ Codestral 0.1 | Código | 22b | docker run -d --rm -p 8080:8080 ghcr.io/sozercan/codestral:22b | codestral-22b | Mnlp |
Observação
Para ativar a aceleração da GPU, consulte a aceleração da GPU.
Observe que apenas a diferença entre a seção CPU e GPU é o sinalizador --gpus all
no comando para ativar a aceleração da GPU.
Modelo | Otimização | Parâmetros | Comando | Nome do modelo | Licença |
---|---|---|---|---|---|
? LLAMA 3.2 | Instruir | 1b | docker run -d --rm --gpus all -p 8080:8080 ghcr.io/sozercan/llama3.2:1b | llama-3.2-1b-instruct | Lhama |
? LLAMA 3.2 | Instruir | 3b | docker run -d --rm --gpus all -p 8080:8080 ghcr.io/sozercan/llama3.2:3b | llama-3.2-3b-instruct | Lhama |
? LLAMA 3.1 | Instruir | 8b | docker run -d --rm --gpus all -p 8080:8080 ghcr.io/sozercan/llama3.1:8b | llama-3.1-8b-instruct | Lhama |
? LLAMA 3.1 | Instruir | 70B | docker run -d --rm --gpus all -p 8080:8080 ghcr.io/sozercan/llama3.1:70b | llama-3.1-70b-instruct | Lhama |
Instruir | 8x7b | docker run -d --rm --gpus all -p 8080:8080 ghcr.io/sozercan/mixtral:8x7b | mixtral-8x7b-instruct | Apache | |
Instruir | 3.8b | docker run -d --rm --gpus all -p 8080:8080 ghcr.io/sozercan/phi3.5:3.8b | phi-3.5-3.8b-instruct | Mit | |
? Gemma 2 | Instruir | 2b | docker run -d --rm --gpus all -p 8080:8080 ghcr.io/sozercan/gemma2:2b | gemma-2-2b-instruct | Gemma |
⌨️ Codestral 0.1 | Código | 22b | docker run -d --rm --gpus all -p 8080:8080 ghcr.io/sozercan/codestral:22b | codestral-22b | Mnlp |
? Fluxo 1 dev | Texto para imagem | 12b | docker run -d --rm --gpus all -p 8080:8080 ghcr.io/sozercan/flux1:dev | flux-1-dev | Flux.1 [Dev] Licença não comercial |
Observação
Para ativar a aceleração da GPU no Apple Silicon, consulte a documentação da área de trabalho do Podman. Para mais informações, consulte a aceleração da GPU.
A Apple Silicon é um tempo de execução experimental e pode mudar no futuro. Esse tempo de execução é específico apenas para o Apple Silicon e não funcionará conforme o esperado em outras arquiteturas, incluindo a Intel Macs.
Apenas os modelos gguf
são suportados no Apple Silicon.
Modelo | Otimização | Parâmetros | Comando | Nome do modelo | Licença |
---|---|---|---|---|---|
? LLAMA 3.2 | Instruir | 1b | podman run -d --rm --device /dev/dri -p 8080:8080 ghcr.io/sozercan/applesilicon/llama3.2:1b | llama-3.2-1b-instruct | Lhama |
? LLAMA 3.2 | Instruir | 3b | podman run -d --rm --device /dev/dri -p 8080:8080 ghcr.io/sozercan/applesilicon/llama3.2:3b | llama-3.2-3b-instruct | Lhama |
? LLAMA 3.1 | Instruir | 8b | podman run -d --rm --device /dev/dri -p 8080:8080 ghcr.io/sozercan/applesilicon/llama3.1:8b | llama-3.1-8b-instruct | Lhama |
Instruir | 3.8b | podman run -d --rm --device /dev/dri -p 8080:8080 ghcr.io/sozercan/applesilicon/phi3.5:3.8b | phi-3.5-3.8b-instruct | Mit | |
? Gemma 2 | Instruir | 2b | podman run -d --rm --device /dev/dri -p 8080:8080 ghcr.io/sozercan/applesilicon/gemma2:2b | gemma-2-2b-instruct | Gemma |
Para mais informações e como ajustar os modelos ou criar suas próprias imagens, consulte o site da Aikit!