Aikit est une plate-forme complète pour commencer rapidement à héberger, déployer, construire et affiner les modèles de grande langue (LLM).
Aikit offre deux capacités principales:
Inférence : Aikit utilise Localai, qui prend en charge un large éventail de capacités et de formats d'inférence. LOCALAI fournit une API de repos de remplacement sans rendez-vous compatible, vous pouvez donc utiliser n'importe quel client compatible API OpenAI, tel que Kubectl AI, Chatbot-UI et bien d'autres, pour envoyer des demandes pour ouvrir les LLM!
Affinement fin : Aikit propose une interface de réglage fin extensible. Il prend en charge un peu pour une expérience rapide, efficace de mémoire et facile à régler.
Pour une documentation complète, veuillez consulter le site Web de l'AIKIT!
llama
), GPTQ ou EXL2 ( exllama2
) et GGML ( llama-ggml
) et MambaVous pouvez commencer avec Aikit rapidement sur votre machine locale sans GPU!
docker run -d --rm -p 8080:8080 ghcr.io/sozercan/llama3.1:8b
Après avoir exécuté cela, accédez à http: // localhost: 8080 / chat pour accéder au webui!
AIKIT fournit un point de terminaison compatible API OpenAI, vous pouvez donc utiliser n'importe quel client compatible API OpenAI pour envoyer des demandes pour ouvrir les LLMS!
curl http://localhost:8080/v1/chat/completions -H " Content-Type: application/json " -d ' {
"model": "llama-3.1-8b-instruct",
"messages": [{"role": "user", "content": "explain kubernetes in a sentence"}]
} '
La sortie doit être similaire à:
{
// ...
"model" : "llama-3.1-8b-instruct" ,
"choices" : [
{
"index" : 0 ,
"finish_reason" : "stop" ,
"message" : {
"role" : "assistant" ,
"content" : "Kubernetes is an open-source container orchestration system that automates the deployment, scaling, and management of applications and services, allowing developers to focus on writing code rather than managing infrastructure."
}
}
] ,
// ...
}
C'est ça! ? L'API est compatible OpenAI, il s'agit donc d'un remplacement sans rendez-vous pour tout client compatible API OpenAI.
AIKIT est livré avec des modèles préfabriqués que vous pouvez utiliser prêts à l'emploi!
S'il n'inclut pas de modèle spécifique, vous pouvez toujours créer vos propres images et héberger dans un registre de conteneurs de votre choix!
Note
AIKIT prend en charge les processeurs AMD64 et ARM64. Vous pouvez exécuter la même commande sur l'une ou l'autre architecture, et Docker tirera automatiquement l'image correcte pour votre CPU.
Selon vos capacités de CPU, l'AIKIT sélectionnera automatiquement l'ensemble d'instructions le plus optimisé.
Modèle | Optimisation | Paramètres | Commande | Nom du modèle | Licence |
---|---|---|---|---|---|
? Lama 3.2 | Instruire | 1b | docker run -d --rm -p 8080:8080 ghcr.io/sozercan/llama3.2:1b | llama-3.2-1b-instruct | Lama |
? Lama 3.2 | Instruire | 3B | docker run -d --rm -p 8080:8080 ghcr.io/sozercan/llama3.2:3b | llama-3.2-3b-instruct | Lama |
? Lama 3.1 | Instruire | 8b | docker run -d --rm -p 8080:8080 ghcr.io/sozercan/llama3.1:8b | llama-3.1-8b-instruct | Lama |
? Lama 3.1 | Instruire | 70b | docker run -d --rm -p 8080:8080 ghcr.io/sozercan/llama3.1:70b | llama-3.1-70b-instruct | Lama |
Instruire | 8x7b | docker run -d --rm -p 8080:8080 ghcr.io/sozercan/mixtral:8x7b | mixtral-8x7b-instruct | Apache | |
Instruire | 3.8b | docker run -d --rm -p 8080:8080 ghcr.io/sozercan/phi3.5:3.8b | phi-3.5-3.8b-instruct | Mit | |
? Gemma 2 | Instruire | 2B | docker run -d --rm -p 8080:8080 ghcr.io/sozercan/gemma2:2b | gemma-2-2b-instruct | Gemme |
⌨️ Codestral 0.1 | Code | 22B | docker run -d --rm -p 8080:8080 ghcr.io/sozercan/codestral:22b | codestral-22b | MNLP |
Note
Pour permettre l'accélération du GPU, veuillez consulter l'accélération du GPU.
Veuillez noter que la seule différence entre le CPU et la section GPU est l'indicateur --gpus all
dans la commande pour activer l'accélération GPU.
Modèle | Optimisation | Paramètres | Commande | Nom du modèle | Licence |
---|---|---|---|---|---|
? Lama 3.2 | Instruire | 1b | docker run -d --rm --gpus all -p 8080:8080 ghcr.io/sozercan/llama3.2:1b | llama-3.2-1b-instruct | Lama |
? Lama 3.2 | Instruire | 3B | docker run -d --rm --gpus all -p 8080:8080 ghcr.io/sozercan/llama3.2:3b | llama-3.2-3b-instruct | Lama |
? Lama 3.1 | Instruire | 8b | docker run -d --rm --gpus all -p 8080:8080 ghcr.io/sozercan/llama3.1:8b | llama-3.1-8b-instruct | Lama |
? Lama 3.1 | Instruire | 70b | docker run -d --rm --gpus all -p 8080:8080 ghcr.io/sozercan/llama3.1:70b | llama-3.1-70b-instruct | Lama |
Instruire | 8x7b | docker run -d --rm --gpus all -p 8080:8080 ghcr.io/sozercan/mixtral:8x7b | mixtral-8x7b-instruct | Apache | |
Instruire | 3.8b | docker run -d --rm --gpus all -p 8080:8080 ghcr.io/sozercan/phi3.5:3.8b | phi-3.5-3.8b-instruct | Mit | |
? Gemma 2 | Instruire | 2B | docker run -d --rm --gpus all -p 8080:8080 ghcr.io/sozercan/gemma2:2b | gemma-2-2b-instruct | Gemme |
⌨️ Codestral 0.1 | Code | 22B | docker run -d --rm --gpus all -p 8080:8080 ghcr.io/sozercan/codestral:22b | codestral-22b | MNLP |
? Flux 1 Dev | Texte à l'image | 12b | docker run -d --rm --gpus all -p 8080:8080 ghcr.io/sozercan/flux1:dev | flux-1-dev | Flux.1 [Dev] Licence non commerciale |
Note
Pour activer l'accélération GPU sur Apple Silicon, veuillez consulter Podman Desktop Documentation. Pour plus d'informations, veuillez consulter l'accélération du GPU.
Apple Silicon est un runtime expérimental et il pourrait changer à l'avenir. Cet exécutif est spécifique au silicium Apple uniquement, et il ne fonctionnera pas comme prévu sur d'autres architectures, y compris les Mac Intel.
Seuls les modèles gguf
sont pris en charge sur le silicium Apple.
Modèle | Optimisation | Paramètres | Commande | Nom du modèle | Licence |
---|---|---|---|---|---|
? Lama 3.2 | Instruire | 1b | podman run -d --rm --device /dev/dri -p 8080:8080 ghcr.io/sozercan/applesilicon/llama3.2:1b | llama-3.2-1b-instruct | Lama |
? Lama 3.2 | Instruire | 3B | podman run -d --rm --device /dev/dri -p 8080:8080 ghcr.io/sozercan/applesilicon/llama3.2:3b | llama-3.2-3b-instruct | Lama |
? Lama 3.1 | Instruire | 8b | podman run -d --rm --device /dev/dri -p 8080:8080 ghcr.io/sozercan/applesilicon/llama3.1:8b | llama-3.1-8b-instruct | Lama |
Instruire | 3.8b | podman run -d --rm --device /dev/dri -p 8080:8080 ghcr.io/sozercan/applesilicon/phi3.5:3.8b | phi-3.5-3.8b-instruct | Mit | |
? Gemma 2 | Instruire | 2B | podman run -d --rm --device /dev/dri -p 8080:8080 ghcr.io/sozercan/applesilicon/gemma2:2b | gemma-2-2b-instruct | Gemme |
Pour plus d'informations et comment affiner les modèles ou créer vos propres images, veuillez consulter le site Web de l'AIKIT!