Download de aikit - Download do código -fonte aikit

aikit

Outro código-fonte

v0.15.0

Baixar

Aikit

A Aikit é uma plataforma abrangente para começar rapidamente a hospedar, implantar, construir e ajustar modelos de idiomas grandes (LLMS).

Aikit oferece dois recursos principais:

Inferência : Aikit usa o Localai, que suporta uma ampla gama de recursos e formatos de inferência. O localai fornece uma API de repouso de substituição que é compatível com a API OpenAI, para que você possa usar qualquer cliente compatível com API OpenAI, como Kubectl AI, Chatbot-UI e muito mais, para enviar solicitações para abrir o LLMS!
Ajuste fino : o AIKIT oferece uma interface de ajuste fina extensível. Ele suporta UNSLOTH para uma experiência rápida, com eficiência de memória e fácil de ajuste fino.

Para documentação completa, consulte o site da AIKIT!

Características

? Sem GPU, acesso à Internet ou ferramentas adicionais necessárias, exceto para o Docker!
? Tamanho mínimo da imagem, resultando em menos vulnerabilidades e menor superfície de ataque com uma imagem personalizada baseada em distritos
? Suporte de ajuste fino
Configuração declarativa fácil de usar para inferência e ajuste fino
API OpenAI compatível para usar com qualquer cliente compatível com API OpenAI
? Suporte de modelo multimodal
? ️ Suporte de geração de imagem
? Suporte para os modelos GGUF ( llama ), GPTQ ou EXL2 ( exllama2 ) e GGML ( llama-ggml ) e MAMBA
? Implantação de Kubernetes pronta
? Suporta vários modelos com uma única imagem
Suporta CPUs AMD64 e ARM64 e Inferência acelerada por GPU com NVIDIA GPUS
? Garanta a segurança da cadeia de suprimentos com SBOMs, atestados de proveniência e imagens assinadas
? Suporta ambientes de ar com os registros de contêineres de contêineres remotos, locais ou qualquer outro registro de contêiner remotos para armazenar imagens para inferência na borda.

Início rápido

Você pode começar com o Aikit rapidamente em sua máquina local sem uma GPU!

docker run -d --rm -p 8080:8080 ghcr.io/sozercan/llama3.1:8b

Depois de executar isso, navegue para http: // localhost: 8080/bate -papo para acessar o webui!

API

O AIKIT fornece um terminal de extremidade compatível com API OpenAI, para que você possa usar qualquer cliente compatível com API OpenAI para enviar solicitações para abrir o LLMS!

curl http://localhost:8080/v1/chat/completions -H " Content-Type: application/json " -d ' {
    "model": "llama-3.1-8b-instruct",
    "messages": [{"role": "user", "content": "explain kubernetes in a sentence"}]
  } '

A saída deve ser semelhante a:

 {
  // ...
    "model" : "llama-3.1-8b-instruct" ,
    "choices" : [
        {
            "index" : 0 ,
            "finish_reason" : "stop" ,
            "message" : {
                "role" : "assistant" ,
                "content" : "Kubernetes is an open-source container orchestration system that automates the deployment, scaling, and management of applications and services, allowing developers to focus on writing code rather than managing infrastructure."
            }
        }
    ] ,
  // ...
}

É isso! ? A API é compatível com o OpenAI, portanto, este é um substituto para qualquer cliente compatível com API OpenAI.

Modelos pré-fabricados

O AIKIT vem com modelos pré-fabricados que você pode usar pronta para uso!

Se não incluir um modelo específico, você sempre poderá criar suas próprias imagens e hospedar em um registro de contêineres de sua escolha!

CPU

Observação

A Aikit suporta as CPUs AMD64 e ARM64. Você pode executar o mesmo comando em qualquer arquitetura e o Docker puxará automaticamente a imagem correta da sua CPU.

Dependendo dos seus recursos da CPU, o AIKIT selecionará automaticamente o conjunto de instruções mais otimizado.

Modelo	Otimização	Parâmetros	Comando	Nome do modelo	Licença
? LLAMA 3.2	Instruir	1b	`docker run -d --rm -p 8080:8080 ghcr.io/sozercan/llama3.2:1b`	`llama-3.2-1b-instruct`	Lhama
? LLAMA 3.2	Instruir	3b	`docker run -d --rm -p 8080:8080 ghcr.io/sozercan/llama3.2:3b`	`llama-3.2-3b-instruct`	Lhama
? LLAMA 3.1	Instruir	8b	`docker run -d --rm -p 8080:8080 ghcr.io/sozercan/llama3.1:8b`	`llama-3.1-8b-instruct`	Lhama
? LLAMA 3.1	Instruir	70B	`docker run -d --rm -p 8080:8080 ghcr.io/sozercan/llama3.1:70b`	`llama-3.1-70b-instruct`	Lhama
Ⓜ️ Mixtral	Instruir	8x7b	`docker run -d --rm -p 8080:8080 ghcr.io/sozercan/mixtral:8x7b`	`mixtral-8x7b-instruct`	Apache
? ️ Phi 3.5	Instruir	3.8b	`docker run -d --rm -p 8080:8080 ghcr.io/sozercan/phi3.5:3.8b`	`phi-3.5-3.8b-instruct`	Mit
? Gemma 2	Instruir	2b	`docker run -d --rm -p 8080:8080 ghcr.io/sozercan/gemma2:2b`	`gemma-2-2b-instruct`	Gemma
⌨️ Codestral 0.1	Código	22b	`docker run -d --rm -p 8080:8080 ghcr.io/sozercan/codestral:22b`	`codestral-22b`	Mnlp

Nvidia Cuda

Observação

Para ativar a aceleração da GPU, consulte a aceleração da GPU.

Observe que apenas a diferença entre a seção CPU e GPU é o sinalizador --gpus all no comando para ativar a aceleração da GPU.

Modelo	Otimização	Parâmetros	Comando	Nome do modelo	Licença
? LLAMA 3.2	Instruir	1b	`docker run -d --rm --gpus all -p 8080:8080 ghcr.io/sozercan/llama3.2:1b`	`llama-3.2-1b-instruct`	Lhama
? LLAMA 3.2	Instruir	3b	`docker run -d --rm --gpus all -p 8080:8080 ghcr.io/sozercan/llama3.2:3b`	`llama-3.2-3b-instruct`	Lhama
? LLAMA 3.1	Instruir	8b	`docker run -d --rm --gpus all -p 8080:8080 ghcr.io/sozercan/llama3.1:8b`	`llama-3.1-8b-instruct`	Lhama
? LLAMA 3.1	Instruir	70B	`docker run -d --rm --gpus all -p 8080:8080 ghcr.io/sozercan/llama3.1:70b`	`llama-3.1-70b-instruct`	Lhama
Ⓜ️ Mixtral	Instruir	8x7b	`docker run -d --rm --gpus all -p 8080:8080 ghcr.io/sozercan/mixtral:8x7b`	`mixtral-8x7b-instruct`	Apache
? ️ Phi 3.5	Instruir	3.8b	`docker run -d --rm --gpus all -p 8080:8080 ghcr.io/sozercan/phi3.5:3.8b`	`phi-3.5-3.8b-instruct`	Mit
? Gemma 2	Instruir	2b	`docker run -d --rm --gpus all -p 8080:8080 ghcr.io/sozercan/gemma2:2b`	`gemma-2-2b-instruct`	Gemma
⌨️ Codestral 0.1	Código	22b	`docker run -d --rm --gpus all -p 8080:8080 ghcr.io/sozercan/codestral:22b`	`codestral-22b`	Mnlp
? Fluxo 1 dev	Texto para imagem	12b	`docker run -d --rm --gpus all -p 8080:8080 ghcr.io/sozercan/flux1:dev`	`flux-1-dev`	Flux.1 [Dev] Licença não comercial

Apple Silicon (experimental)

Observação

Para ativar a aceleração da GPU no Apple Silicon, consulte a documentação da área de trabalho do Podman. Para mais informações, consulte a aceleração da GPU.

A Apple Silicon é um tempo de execução experimental e pode mudar no futuro. Esse tempo de execução é específico apenas para o Apple Silicon e não funcionará conforme o esperado em outras arquiteturas, incluindo a Intel Macs.

Apenas os modelos gguf são suportados no Apple Silicon.

Modelo	Otimização	Parâmetros	Comando	Nome do modelo	Licença
? LLAMA 3.2	Instruir	1b	`podman run -d --rm --device /dev/dri -p 8080:8080 ghcr.io/sozercan/applesilicon/llama3.2:1b`	`llama-3.2-1b-instruct`	Lhama
? LLAMA 3.2	Instruir	3b	`podman run -d --rm --device /dev/dri -p 8080:8080 ghcr.io/sozercan/applesilicon/llama3.2:3b`	`llama-3.2-3b-instruct`	Lhama
? LLAMA 3.1	Instruir	8b	`podman run -d --rm --device /dev/dri -p 8080:8080 ghcr.io/sozercan/applesilicon/llama3.1:8b`	`llama-3.1-8b-instruct`	Lhama
? ️ Phi 3.5	Instruir	3.8b	`podman run -d --rm --device /dev/dri -p 8080:8080 ghcr.io/sozercan/applesilicon/phi3.5:3.8b`	`phi-3.5-3.8b-instruct`	Mit
? Gemma 2	Instruir	2b	`podman run -d --rm --device /dev/dri -p 8080:8080 ghcr.io/sozercan/applesilicon/gemma2:2b`	`gemma-2-2b-instruct`	Gemma