Téléchargement de llama - Téléchargement du code source llama

llama

Autre code source

Télécharger

Note de dépréciation

Merci d'avoir développé avec des modèles lama. Dans le cadre de la version LLAMA 3.1, nous avons consolidé GitHub Repos et ajouté quelques reposs supplémentaires car nous avons élargi la fonctionnalité de Llama en étant une pile E2e Llama. Veuillez utiliser les références suivantes à l'avenir:

LLAMA-MODELS - REPO CENTRAL pour les modèles de fondation, notamment les services publics de base, les cartes de modèle, la licence et les politiques d'utilisation
Purlellama - Composant clé de la pile de lama se concentrant sur les risques de sécurité et les atténuations du temps d'inférence
LLAMA-TOOLCHAIN - Développement du modèle (inférence / réglage fin / Shields de sécurité / génération de données synthétiques) Interfaces et implémentations canoniques
LLAMA-AFANTIC-SYSTÈME - E2E Système de pile Llama Standalone, ainsi qu'une interface sous-jacente d'opinion, qui permet la création d'applications agentiques
LLAMA-RECIPES - SCRIPTS ET INTERGATIONS DIVÉES DE LA COMMUNALITÉ

Si vous avez des questions, n'hésitez pas à déposer un problème sur l'un des dépositions ci-dessus et nous ferons de notre mieux pour répondre en temps opportun.

Merci!

(Déprécié) lama 2

Nous déverrouillons la puissance des grands modèles de langue. LLAMA 2 est désormais accessible aux individus, aux créateurs, aux chercheurs et aux entreprises de toutes tailles afin qu'ils puissent expérimenter, innover et mettre à l'échelle leurs idées de manière responsable.

Cette version comprend des poids de modèle et du code de démarrage pour les modèles de langage LLAMA pré-formés et affinés - allant de 7B à 70B.

Ce référentiel est conçu comme un exemple minimal pour charger les modèles LLAMA 2 et exécuter l'inférence. Pour des exemples plus détaillés en tirant parti des étreintes, voir Llama-Repices.

Mise à jour après le lancement

Voir mises à jour.md. Aussi pour une liste de questions fréquemment posées, voir ici.

Télécharger

Afin de télécharger les poids du modèle et le tokenizer, veuillez visiter le site Web Meta et accepter notre licence.

Une fois votre demande approuvée, vous recevrez une URL signée par e-mail. Ensuite, exécutez le script Téléchargement.sh, en passant l'URL fournie lorsque vous êtes invité à démarrer le téléchargement.

Pré-requis: assurez-vous que wget et md5sum installés. Ensuite, exécutez le script: ./download.sh .

Gardez à l'esprit que les liens expirent après 24 heures et une certaine quantité de téléchargements. Si vous commencez à voir des erreurs telles que 403: Forbidden , vous pouvez toujours répéter un lien.

Accès au visage étreint

Nous fournissons également des téléchargements sur les câlins. Vous pouvez demander l'accès aux modèles en reconnaissant la licence et en remplissant le formulaire dans la carte de modèle d'un dépôt. Après cela, vous devriez avoir accès à tous les modèles de lama d'une version (Code Llama, Llama 2 ou Llama Guard) dans une heure.

Démarrage rapide

Vous pouvez suivre les étapes ci-dessous pour être rapidement opérationnelle avec les modèles LLAMA 2. Ces étapes vous permettront d'exécuter une inférence rapide localement. Pour plus d'exemples, consultez le référentiel de recettes LLAMA 2.

Dans un Conda Env avec Pytorch / Cuda disponible Clone et téléchargez ce référentiel.
Dans le répertoire de niveau supérieur:
```
pip install -e .
```
Visitez le site Web Meta et inscrivez-vous pour télécharger les modèles / s.
Une fois enregistré, vous recevrez un e-mail avec une URL pour télécharger les modèles. Vous aurez besoin de cette URL lorsque vous exécutez le script Download.sh.
Une fois que vous avez reçu l'e-mail, accédez à votre référentiel LLAMA téléchargé et exécutez le script Télécharger.sh.
- Assurez-vous d'accorder des autorisations d'exécution au Script Download.sh
- Au cours de ce processus, vous serez invité à saisir l'URL à partir de l'e-mail.
- N'utilisez pas l'option «Copier le lien», mais assurez-vous de copier manuellement le lien à partir de l'e-mail.
Une fois que le modèle / s que vous souhaitez avoir été téléchargé, vous pouvez exécuter le modèle localement à l'aide de la commande ci-dessous:

torchrun --nproc_per_node 1 example_chat_completion.py 
    --ckpt_dir llama-2-7b-chat/ 
    --tokenizer_path tokenizer.model 
    --max_seq_len 512 --max_batch_size 6

Note

Remplacez llama-2-7b-chat/ avec le chemin d'accès à votre répertoire de point de contrôle et tokenizer.model par le chemin de votre modèle de tokenizer.
Le –nproc_per_node doit être défini sur la valeur MP pour le modèle que vous utilisez.
Ajustez les paramètres max_seq_len et max_batch_size au besoin.
Cet exemple exécute l'exemple_chat_completion.py trouvé dans ce référentiel, mais vous pouvez le modifier en un fichier .py différent.

Inférence

Différents modèles nécessitent des valeurs de modèle parallèle (MP) différentes:

Modèle	Député
7b	1
13B	2
70b	8

Tous les modèles prennent en charge la longueur de séquence jusqu'à 4096 jetons, mais nous pré-allocation du cache selon les valeurs max_seq_len et max_batch_size . Donc, définissez-les selon votre matériel.

Modèles pré-entraînés

Ces modèles ne sont pas finitunés pour le chat ou les questions et réponses. Ils doivent être invités afin que la réponse attendue soit la continuation naturelle de l'invite.

Voir example_text_completion.py pour quelques exemples. Pour illustrer, voir la commande ci-dessous pour l'exécuter avec le modèle LLAMA-2-7B ( nproc_per_node doit être défini sur la valeur MP ):

 torchrun --nproc_per_node 1 example_text_completion.py 
    --ckpt_dir llama-2-7b/ 
    --tokenizer_path tokenizer.model 
    --max_seq_len 128 --max_batch_size 4

Modèles de chat réglés

Les modèles affinés ont été formés pour des applications de dialogue. Pour obtenir les fonctionnalités et les performances attendues pour eux, un formatage spécifique défini dans chat_completion doit être suivi, y compris les jetons INST et <<SYS>> , les jetons BOS et EOS , ainsi que les espaces blancs et les ruptures entre les deux (nous recommandons d'appeler strip() sur les entrées pour éviter les doubles espaces).

Vous pouvez également déployer des classificateurs supplémentaires pour filtrer les entrées et sorties qui sont jugées dangereuses. Consultez le dépôt LLAMA-RECIPES pour un exemple de la façon d'ajouter un vérificateur de sécurité aux entrées et sorties de votre code d'inférence.

Exemples utilisant LLAMA-2-7B-CHAT:

 torchrun --nproc_per_node 1 example_chat_completion.py 
    --ckpt_dir llama-2-7b-chat/ 
    --tokenizer_path tokenizer.model 
    --max_seq_len 512 --max_batch_size 6

Llama 2 est une nouvelle technologie qui comporte des risques potentiels avec une utilisation. Les tests effectués à ce jour n'ont pas - et ne pouvaient pas - couvrir tous les scénarios. Afin d'aider les développeurs à aborder ces risques, nous avons créé le guide d'utilisation responsable. Plus de détails peuvent également être trouvés dans notre document de recherche.

Problèmes

Veuillez signaler tout «bogue» logiciel ou d'autres problèmes avec les modèles via l'un des moyens suivants:

Reportation des problèmes avec le modèle: github.com/facebookresearch/Lama
Signaler un contenu risqué généré par le modèle: développeurs.facebook.com/Lama_output_feedback
Reportation des bogues et des problèmes de sécurité: facebook.com/whitehat/info

Carte modèle

Voir modèle_card.md.

Licence

Notre modèle et nos poids sont autorisés aux chercheurs et aux entités commerciales, en respectant les principes de l'ouverture. Notre mission est d'autonomiser les individus et l'industrie à travers cette opportunité, tout en favorisant un environnement de découverte et de progrès éthiques d'IA.

Voir le fichier de licence, ainsi que notre politique d'utilisation acceptable qui l'accompagne