Merci d'avoir développé avec des modèles lama. Dans le cadre de la version LLAMA 3.1, nous avons consolidé GitHub Repos et ajouté quelques reposs supplémentaires car nous avons élargi la fonctionnalité de Llama en étant une pile E2e Llama. Veuillez utiliser les références suivantes à l'avenir:
Si vous avez des questions, n'hésitez pas à déposer un problème sur l'un des dépositions ci-dessus et nous ferons de notre mieux pour répondre en temps opportun.
Merci!
Nous déverrouillons la puissance des grands modèles de langue. LLAMA 2 est désormais accessible aux individus, aux créateurs, aux chercheurs et aux entreprises de toutes tailles afin qu'ils puissent expérimenter, innover et mettre à l'échelle leurs idées de manière responsable.
Cette version comprend des poids de modèle et du code de démarrage pour les modèles de langage LLAMA pré-formés et affinés - allant de 7B à 70B.
Ce référentiel est conçu comme un exemple minimal pour charger les modèles LLAMA 2 et exécuter l'inférence. Pour des exemples plus détaillés en tirant parti des étreintes, voir Llama-Repices.
Voir mises à jour.md. Aussi pour une liste de questions fréquemment posées, voir ici.
Afin de télécharger les poids du modèle et le tokenizer, veuillez visiter le site Web Meta et accepter notre licence.
Une fois votre demande approuvée, vous recevrez une URL signée par e-mail. Ensuite, exécutez le script Téléchargement.sh, en passant l'URL fournie lorsque vous êtes invité à démarrer le téléchargement.
Pré-requis: assurez-vous que wget
et md5sum
installés. Ensuite, exécutez le script: ./download.sh
.
Gardez à l'esprit que les liens expirent après 24 heures et une certaine quantité de téléchargements. Si vous commencez à voir des erreurs telles que 403: Forbidden
, vous pouvez toujours répéter un lien.
Nous fournissons également des téléchargements sur les câlins. Vous pouvez demander l'accès aux modèles en reconnaissant la licence et en remplissant le formulaire dans la carte de modèle d'un dépôt. Après cela, vous devriez avoir accès à tous les modèles de lama d'une version (Code Llama, Llama 2 ou Llama Guard) dans une heure.
Vous pouvez suivre les étapes ci-dessous pour être rapidement opérationnelle avec les modèles LLAMA 2. Ces étapes vous permettront d'exécuter une inférence rapide localement. Pour plus d'exemples, consultez le référentiel de recettes LLAMA 2.
Dans un Conda Env avec Pytorch / Cuda disponible Clone et téléchargez ce référentiel.
Dans le répertoire de niveau supérieur:
pip install -e .
Visitez le site Web Meta et inscrivez-vous pour télécharger les modèles / s.
Une fois enregistré, vous recevrez un e-mail avec une URL pour télécharger les modèles. Vous aurez besoin de cette URL lorsque vous exécutez le script Download.sh.
Une fois que vous avez reçu l'e-mail, accédez à votre référentiel LLAMA téléchargé et exécutez le script Télécharger.sh.
Une fois que le modèle / s que vous souhaitez avoir été téléchargé, vous pouvez exécuter le modèle localement à l'aide de la commande ci-dessous:
torchrun --nproc_per_node 1 example_chat_completion.py
--ckpt_dir llama-2-7b-chat/
--tokenizer_path tokenizer.model
--max_seq_len 512 --max_batch_size 6
Note
llama-2-7b-chat/
avec le chemin d'accès à votre répertoire de point de contrôle et tokenizer.model
par le chemin de votre modèle de tokenizer.–nproc_per_node
doit être défini sur la valeur MP pour le modèle que vous utilisez.max_seq_len
et max_batch_size
au besoin.Différents modèles nécessitent des valeurs de modèle parallèle (MP) différentes:
Modèle | Député |
---|---|
7b | 1 |
13B | 2 |
70b | 8 |
Tous les modèles prennent en charge la longueur de séquence jusqu'à 4096 jetons, mais nous pré-allocation du cache selon les valeurs max_seq_len
et max_batch_size
. Donc, définissez-les selon votre matériel.
Ces modèles ne sont pas finitunés pour le chat ou les questions et réponses. Ils doivent être invités afin que la réponse attendue soit la continuation naturelle de l'invite.
Voir example_text_completion.py
pour quelques exemples. Pour illustrer, voir la commande ci-dessous pour l'exécuter avec le modèle LLAMA-2-7B ( nproc_per_node
doit être défini sur la valeur MP
):
torchrun --nproc_per_node 1 example_text_completion.py
--ckpt_dir llama-2-7b/
--tokenizer_path tokenizer.model
--max_seq_len 128 --max_batch_size 4
Les modèles affinés ont été formés pour des applications de dialogue. Pour obtenir les fonctionnalités et les performances attendues pour eux, un formatage spécifique défini dans chat_completion
doit être suivi, y compris les jetons INST
et <<SYS>>
, les jetons BOS
et EOS
, ainsi que les espaces blancs et les ruptures entre les deux (nous recommandons d'appeler strip()
sur les entrées pour éviter les doubles espaces).
Vous pouvez également déployer des classificateurs supplémentaires pour filtrer les entrées et sorties qui sont jugées dangereuses. Consultez le dépôt LLAMA-RECIPES pour un exemple de la façon d'ajouter un vérificateur de sécurité aux entrées et sorties de votre code d'inférence.
Exemples utilisant LLAMA-2-7B-CHAT:
torchrun --nproc_per_node 1 example_chat_completion.py
--ckpt_dir llama-2-7b-chat/
--tokenizer_path tokenizer.model
--max_seq_len 512 --max_batch_size 6
Llama 2 est une nouvelle technologie qui comporte des risques potentiels avec une utilisation. Les tests effectués à ce jour n'ont pas - et ne pouvaient pas - couvrir tous les scénarios. Afin d'aider les développeurs à aborder ces risques, nous avons créé le guide d'utilisation responsable. Plus de détails peuvent également être trouvés dans notre document de recherche.
Veuillez signaler tout «bogue» logiciel ou d'autres problèmes avec les modèles via l'un des moyens suivants:
Voir modèle_card.md.
Notre modèle et nos poids sont autorisés aux chercheurs et aux entités commerciales, en respectant les principes de l'ouverture. Notre mission est d'autonomiser les individus et l'industrie à travers cette opportunité, tout en favorisant un environnement de découverte et de progrès éthiques d'IA.
Voir le fichier de licence, ainsi que notre politique d'utilisation acceptable qui l'accompagne
Pour des questions courantes, la FAQ peut être trouvée ici qui sera tenue à jour avec le temps à mesure que de nouvelles questions se posent.
Le dépôt de la version originale de Llama est dans la branche llama_v1
.