Llama est un grand modèle de langage (LLM) accessible et ouvert conçu pour permettre aux développeurs, aux chercheurs et aux entreprises de créer, d'expérimenter et de faire évoluer de manière responsable leurs idées d'IA générative. Faisant partie d’un système fondamental, il sert de fondement à l’innovation dans la communauté mondiale. Quelques aspects clés :
Accès ouvert : accès facile aux grands modèles de langage de pointe, favorisant la collaboration et les progrès entre les développeurs, les chercheurs et les organisations
Vaste écosystème : les modèles Llama ont été téléchargés des centaines de millions de fois, des milliers de projets communautaires sont construits sur Llama et le support de la plate-forme est large, des fournisseurs de cloud aux startups - le monde se construit avec Llama !
Confiance et sécurité : les modèles de lamas font partie d'une approche globale de la confiance et de la sécurité, publiant des modèles et des outils conçus pour permettre la collaboration communautaire et encourager la standardisation du développement et de l'utilisation d'outils de confiance et de sécurité pour l'IA générative.
Notre mission est de responsabiliser les individus et l'industrie grâce à cette opportunité tout en favorisant un environnement de découverte et de progrès éthiques en matière d'IA. Les poids du modèle sont sous licence pour les chercheurs et les entités commerciales, dans le respect des principes d'ouverture.
Modèle | Date de lancement | Tailles des modèles | Longueur du contexte | Tokeniseur | Politique d'utilisation acceptable | Licence | Carte modèle |
---|---|---|---|---|---|---|---|
Lama 2 | 18/07/2023 | 7B, 13B, 70B | 4K | Morceau de phrase | Politique d'utilisation | Licence | Carte modèle |
Lama 3 | 18/04/2024 | 8B, 70B | 8K | Basé sur TikToken | Politique d'utilisation | Licence | Carte modèle |
Lama 3.1 | 23/07/2024 | 8B, 70B, 405B | 128 Ko | Basé sur TikToken | Politique d'utilisation | Licence | Carte modèle |
Lama 3.2 | 25/09/2024 | 1B, 3B | 128 Ko | Basé sur TikToken | Politique d'utilisation | Licence | Carte modèle |
Lama 3.2-Vision | 25/09/2024 | 11B, 90B | 128 Ko | Basé sur TikToken | Politique d'utilisation | Licence | Carte modèle |
Pour télécharger les poids du modèle et le tokenizer :
Visitez le site Web de Meta Llama.
Lisez et acceptez la licence.
Une fois votre demande approuvée, vous recevrez une URL signée par e-mail.
Installez la CLI Llama : pip install llama-stack
. ( <-- Commencez ici si vous avez déjà reçu un e-mail. )
Exécutez llama model list
pour afficher les derniers modèles disponibles et déterminer l'ID de modèle que vous souhaitez télécharger. REMARQUE : Si vous souhaitez des versions plus anciennes des modèles, exécutez llama model list --show-all
pour afficher tous les modèles Llama disponibles.
Exécuter : llama download --source meta --model-id CHOSEN_MODEL_ID
Transmettez l'URL fournie lorsque vous êtes invité à démarrer le téléchargement.
N'oubliez pas que les liens expirent après 24 heures et un certain nombre de téléchargements. Vous pouvez toujours demander à nouveau un lien si vous commencez à voir des erreurs telles que 403: Forbidden
.
Vous devez installer les dépendances suivantes (en plus du fichier requirements.txt
dans le répertoire racine de ce référentiel) pour exécuter les modèles :
pip install torch fairscale fire blobfile
Après avoir installé les dépendances, vous pouvez exécuter les exemples de scripts (dans le sous-répertoire llama_models/scripts/
) comme suit :
#!/bin/bashCHECKPOINT_DIR=~/.llama/checkpoints/Meta-Llama3.1-8B-Instruct PYTHONPATH=$(git rev-parse --show-toplevel) torchrun llama_models/scripts/example_chat_completion.py $CHECKPOINT_DIR
Le script ci-dessus doit être utilisé avec un modèle Instruct (Chat). Pour un modèle de base, utilisez le script llama_models/scripts/example_text_completion.py
. Notez que vous pouvez utiliser ces scripts avec les séries de modèles Llama3 et Llama3.1.
Pour exécuter des modèles plus grands avec un parallélisme tensoriel, vous devez modifier comme :
#!/bin/bashNGPUS=8 PYTHONPATH=$(git rev-parse --show-toplevel) torchrun --nproc_per_node=$NGPUS llama_models/scripts/example_chat_completion.py $CHECKPOINT_DIR --model_parallel_size $NGPUS
Pour plus de flexibilité dans l'exécution de l'inférence (y compris l'exécution de l'inférence FP8), veuillez consulter le référentiel Llama Stack
.
Nous proposons également des téléchargements sur Hugging Face, aux formats Transformers et llama3
natifs. Pour télécharger les poids de Hugging Face, veuillez suivre ces étapes :
Visitez l'un des dépôts, par exemple meta-llama/Meta-Llama-3.1-8B-Instruct.
Lisez et acceptez la licence. Une fois votre demande approuvée, vous aurez accès à tous les modèles Llama 3.1 ainsi qu'aux versions précédentes. Notez que le traitement des demandes prenait jusqu'à une heure.
Pour télécharger les poids natifs d'origine à utiliser avec ce dépôt, cliquez sur l'onglet "Fichiers et versions" et téléchargez le contenu du dossier original
. Vous pouvez également les télécharger depuis la ligne de commande si vous pip install huggingface-hub
:
huggingface-cli télécharger méta-llama/Meta-Llama-3.1-8B-Instruct --include "original/*" --local-dir méta-llama/Meta-Llama-3.1-8B-Instruct
REMARQUE Les poids natifs d'origine de metal-llama/Meta-Llama-3.1-405B ne seraient pas disponibles via ce référentiel HugginFace.
À utiliser avec les transformateurs, l'extrait de pipeline suivant téléchargera et mettra en cache les pondérations :
import transformersimport torchmodel_id = "meta-llama/Meta-Llama-3.1-8B-Instruct"pipeline = transformers.pipeline( "text-generation", model="meta-llama/Meta-Llama-3.1-8B-Instruct", model_kwargs ={"torch_dtype": torch.bfloat16}, appareil="cuda", )
Vous pouvez installer ce référentiel en tant que package en faisant simplement pip install llama-models
Les modèles Lama sont une nouvelle technologie qui comporte des risques potentiels lors de son utilisation. Les tests effectués jusqu’à présent n’ont pas – et ne peuvent pas – couvrir tous les scénarios. Pour aider les développeurs à faire face à ces risques, nous avons créé le Guide d'utilisation responsable.
Pour les questions courantes, la FAQ peut être trouvée ici, qui sera mise à jour au fil du temps à mesure que de nouvelles questions surgiront.