Téléchargement aikit - Téléchargement du code source aikit

aikit

Autre code source

v0.15.0

Télécharger

Aikit

Aikit est une plate-forme complète pour commencer rapidement à héberger, déployer, construire et affiner les modèles de grande langue (LLM).

Aikit offre deux capacités principales:

Inférence : Aikit utilise Localai, qui prend en charge un large éventail de capacités et de formats d'inférence. LOCALAI fournit une API de repos de remplacement sans rendez-vous compatible, vous pouvez donc utiliser n'importe quel client compatible API OpenAI, tel que Kubectl AI, Chatbot-UI et bien d'autres, pour envoyer des demandes pour ouvrir les LLM!
Affinement fin : Aikit propose une interface de réglage fin extensible. Il prend en charge un peu pour une expérience rapide, efficace de mémoire et facile à régler.

Pour une documentation complète, veuillez consulter le site Web de l'AIKIT!

Caractéristiques

? Pas de GPU, d'accès Internet ou d'outils supplémentaires nécessaires à l'exception de Docker!
? Taille minimale de l'image, entraînant moins de vulnérabilités et une surface d'attaque plus petite avec une image basée sur la distro
? Support de tonnelle
Configuration déclarative facile à utiliser pour l'inférence et le réglage fin
API OpenAI compatible à utiliser avec tout client compatible API OpenAI
? Prise en charge du modèle multimodal
? ️ Support de génération d'images
? Prise en charge des modèles GGUF ( llama ), GPTQ ou EXL2 ( exllama2 ) et GGML ( llama-ggml ) et Mamba
? Kubernetes Déploiement prêt
? Prend en charge plusieurs modèles avec une seule image
Prend en charge les processeurs AMD64 et ARM64 et l'inférence accélérée par GPU avec les GPU NVIDIA
? Assurer la sécurité de la chaîne d'approvisionnement avec SBOM
? Prend en charge les environnements à air à air avec des registres de conteneurs auto-hébergés, locaux ou distants pour stocker des images de modèle pour l'inférence sur le bord.

Démarrage rapide

Vous pouvez commencer avec Aikit rapidement sur votre machine locale sans GPU!

docker run -d --rm -p 8080:8080 ghcr.io/sozercan/llama3.1:8b

Après avoir exécuté cela, accédez à http: // localhost: 8080 / chat pour accéder au webui!

API

AIKIT fournit un point de terminaison compatible API OpenAI, vous pouvez donc utiliser n'importe quel client compatible API OpenAI pour envoyer des demandes pour ouvrir les LLMS!

curl http://localhost:8080/v1/chat/completions -H " Content-Type: application/json " -d ' {
    "model": "llama-3.1-8b-instruct",
    "messages": [{"role": "user", "content": "explain kubernetes in a sentence"}]
  } '

La sortie doit être similaire à:

 {
  // ...
    "model" : "llama-3.1-8b-instruct" ,
    "choices" : [
        {
            "index" : 0 ,
            "finish_reason" : "stop" ,
            "message" : {
                "role" : "assistant" ,
                "content" : "Kubernetes is an open-source container orchestration system that automates the deployment, scaling, and management of applications and services, allowing developers to focus on writing code rather than managing infrastructure."
            }
        }
    ] ,
  // ...
}

C'est ça! ? L'API est compatible OpenAI, il s'agit donc d'un remplacement sans rendez-vous pour tout client compatible API OpenAI.

Modèles pré-fabriqués

AIKIT est livré avec des modèles préfabriqués que vous pouvez utiliser prêts à l'emploi!

S'il n'inclut pas de modèle spécifique, vous pouvez toujours créer vos propres images et héberger dans un registre de conteneurs de votre choix!

Processeur

Note

AIKIT prend en charge les processeurs AMD64 et ARM64. Vous pouvez exécuter la même commande sur l'une ou l'autre architecture, et Docker tirera automatiquement l'image correcte pour votre CPU.

Selon vos capacités de CPU, l'AIKIT sélectionnera automatiquement l'ensemble d'instructions le plus optimisé.

Modèle	Optimisation	Paramètres	Commande	Nom du modèle	Licence
? Lama 3.2	Instruire	1b	`docker run -d --rm -p 8080:8080 ghcr.io/sozercan/llama3.2:1b`	`llama-3.2-1b-instruct`	Lama
? Lama 3.2	Instruire	3B	`docker run -d --rm -p 8080:8080 ghcr.io/sozercan/llama3.2:3b`	`llama-3.2-3b-instruct`	Lama
? Lama 3.1	Instruire	8b	`docker run -d --rm -p 8080:8080 ghcr.io/sozercan/llama3.1:8b`	`llama-3.1-8b-instruct`	Lama
? Lama 3.1	Instruire	70b	`docker run -d --rm -p 8080:8080 ghcr.io/sozercan/llama3.1:70b`	`llama-3.1-70b-instruct`	Lama
Ⓜ️ Mixtral	Instruire	8x7b	`docker run -d --rm -p 8080:8080 ghcr.io/sozercan/mixtral:8x7b`	`mixtral-8x7b-instruct`	Apache
? ️ Phi 3.5	Instruire	3.8b	`docker run -d --rm -p 8080:8080 ghcr.io/sozercan/phi3.5:3.8b`	`phi-3.5-3.8b-instruct`	Mit
? Gemma 2	Instruire	2B	`docker run -d --rm -p 8080:8080 ghcr.io/sozercan/gemma2:2b`	`gemma-2-2b-instruct`	Gemme
⌨️ Codestral 0.1	Code	22B	`docker run -d --rm -p 8080:8080 ghcr.io/sozercan/codestral:22b`	`codestral-22b`	MNLP

Nvidia Cuda

Note

Pour permettre l'accélération du GPU, veuillez consulter l'accélération du GPU.

Veuillez noter que la seule différence entre le CPU et la section GPU est l'indicateur --gpus all dans la commande pour activer l'accélération GPU.

Modèle	Optimisation	Paramètres	Commande	Nom du modèle	Licence
? Lama 3.2	Instruire	1b	`docker run -d --rm --gpus all -p 8080:8080 ghcr.io/sozercan/llama3.2:1b`	`llama-3.2-1b-instruct`	Lama
? Lama 3.2	Instruire	3B	`docker run -d --rm --gpus all -p 8080:8080 ghcr.io/sozercan/llama3.2:3b`	`llama-3.2-3b-instruct`	Lama
? Lama 3.1	Instruire	8b	`docker run -d --rm --gpus all -p 8080:8080 ghcr.io/sozercan/llama3.1:8b`	`llama-3.1-8b-instruct`	Lama
? Lama 3.1	Instruire	70b	`docker run -d --rm --gpus all -p 8080:8080 ghcr.io/sozercan/llama3.1:70b`	`llama-3.1-70b-instruct`	Lama
Ⓜ️ Mixtral	Instruire	8x7b	`docker run -d --rm --gpus all -p 8080:8080 ghcr.io/sozercan/mixtral:8x7b`	`mixtral-8x7b-instruct`	Apache
? ️ Phi 3.5	Instruire	3.8b	`docker run -d --rm --gpus all -p 8080:8080 ghcr.io/sozercan/phi3.5:3.8b`	`phi-3.5-3.8b-instruct`	Mit
? Gemma 2	Instruire	2B	`docker run -d --rm --gpus all -p 8080:8080 ghcr.io/sozercan/gemma2:2b`	`gemma-2-2b-instruct`	Gemme
⌨️ Codestral 0.1	Code	22B	`docker run -d --rm --gpus all -p 8080:8080 ghcr.io/sozercan/codestral:22b`	`codestral-22b`	MNLP
? Flux 1 Dev	Texte à l'image	12b	`docker run -d --rm --gpus all -p 8080:8080 ghcr.io/sozercan/flux1:dev`	`flux-1-dev`	Flux.1 [Dev] Licence non commerciale

Silicon Apple (expérimental)

Note

Pour activer l'accélération GPU sur Apple Silicon, veuillez consulter Podman Desktop Documentation. Pour plus d'informations, veuillez consulter l'accélération du GPU.

Apple Silicon est un runtime expérimental et il pourrait changer à l'avenir. Cet exécutif est spécifique au silicium Apple uniquement, et il ne fonctionnera pas comme prévu sur d'autres architectures, y compris les Mac Intel.

Seuls les modèles gguf sont pris en charge sur le silicium Apple.

Modèle	Optimisation	Paramètres	Commande	Nom du modèle	Licence
? Lama 3.2	Instruire	1b	`podman run -d --rm --device /dev/dri -p 8080:8080 ghcr.io/sozercan/applesilicon/llama3.2:1b`	`llama-3.2-1b-instruct`	Lama
? Lama 3.2	Instruire	3B	`podman run -d --rm --device /dev/dri -p 8080:8080 ghcr.io/sozercan/applesilicon/llama3.2:3b`	`llama-3.2-3b-instruct`	Lama
? Lama 3.1	Instruire	8b	`podman run -d --rm --device /dev/dri -p 8080:8080 ghcr.io/sozercan/applesilicon/llama3.1:8b`	`llama-3.1-8b-instruct`	Lama
? ️ Phi 3.5	Instruire	3.8b	`podman run -d --rm --device /dev/dri -p 8080:8080 ghcr.io/sozercan/applesilicon/phi3.5:3.8b`	`phi-3.5-3.8b-instruct`	Mit
? Gemma 2	Instruire	2B	`podman run -d --rm --device /dev/dri -p 8080:8080 ghcr.io/sozercan/applesilicon/gemma2:2b`	`gemma-2-2b-instruct`	Gemme