Llama ist ein zugängliches, offenes Large Language Model (LLM), das für Entwickler, Forscher und Unternehmen entwickelt wurde, um ihre generativen KI-Ideen zu entwickeln, zu experimentieren und verantwortungsvoll zu skalieren. Als Teil eines grundlegenden Systems dient es als Grundlage für Innovationen in der globalen Gemeinschaft. Ein paar wichtige Aspekte:
Open Access : Einfacher Zugang zu hochmodernen großen Sprachmodellen, was die Zusammenarbeit und den Fortschritt zwischen Entwicklern, Forschern und Organisationen fördert
Breites Ökosystem : Llama-Modelle wurden Hunderte Millionen Mal heruntergeladen, es gibt Tausende von Community-Projekten, die auf Llama basieren, und die Plattformunterstützung ist breit gefächert, von Cloud-Anbietern bis hin zu Startups – die Welt baut sich mit Llama auf!
Vertrauen und Sicherheit : Lama-Modelle sind Teil eines umfassenden Ansatzes für Vertrauen und Sicherheit und veröffentlichen Modelle und Tools, die die Zusammenarbeit in der Community ermöglichen und die Standardisierung der Entwicklung und Nutzung von Vertrauens- und Sicherheitstools für generative KI fördern sollen
Unsere Mission ist es, Einzelpersonen und die Industrie durch diese Gelegenheit zu stärken und gleichzeitig ein Umfeld der Entdeckung und ethischen KI-Fortschritte zu fördern. Die Modellgewichte sind für Forscher und kommerzielle Unternehmen lizenziert und wahren die Grundsätze der Offenheit.
Modell | Erscheinungsdatum | Modellgrößen | Kontextlänge | Tokenizer | Richtlinien zur akzeptablen Nutzung | Lizenz | Modellkarte |
---|---|---|---|---|---|---|---|
Lama 2 | 18.07.2023 | 7B, 13B, 70B | 4K | Satzstück | Nutzungsrichtlinie | Lizenz | Modellkarte |
Lama 3 | 18.04.2024 | 8B, 70B | 8K | Basierend auf TikToken | Nutzungsrichtlinie | Lizenz | Modellkarte |
Lama 3.1 | 23.07.2024 | 8B, 70B, 405B | 128K | Basierend auf TikToken | Nutzungsrichtlinie | Lizenz | Modellkarte |
Lama 3.2 | 25.09.2024 | 1B, 3B | 128K | Basierend auf TikToken | Nutzungsrichtlinie | Lizenz | Modellkarte |
Lama 3.2-Vision | 25.09.2024 | 11B, 90B | 128K | Basierend auf TikToken | Nutzungsrichtlinie | Lizenz | Modellkarte |
So laden Sie die Modellgewichte und den Tokenizer herunter:
Besuchen Sie die Meta Llama-Website.
Lesen und akzeptieren Sie die Lizenz.
Sobald Ihre Anfrage genehmigt wurde, erhalten Sie eine signierte URL per E-Mail.
Installieren Sie die Llama-CLI: pip install llama-stack
. ( <-- Hier beginnen, wenn Sie bereits eine E-Mail erhalten haben. )
Führen Sie llama model list
aus, um die neuesten verfügbaren Modelle anzuzeigen und die Modell-ID zu bestimmen, die Sie herunterladen möchten. HINWEIS : Wenn Sie ältere Modellversionen wünschen, führen Sie llama model list --show-all
aus, um alle verfügbaren Llama-Modelle anzuzeigen.
Führen Sie Folgendes aus: llama download --source meta --model-id CHOSEN_MODEL_ID
Übergeben Sie die angegebene URL, wenn Sie zum Starten des Downloads aufgefordert werden.
Denken Sie daran, dass die Links nach 24 Stunden und einer bestimmten Anzahl an Downloads ablaufen. Sie können einen Link jederzeit erneut anfordern, wenn Fehler wie 403: Forbidden
angezeigt werden.
Sie müssen die folgenden Abhängigkeiten installieren (zusätzlich zur requirements.txt
im Stammverzeichnis dieses Repositorys), um die Modelle auszuführen:
pip install torch fairscale fire blobfile
Nach der Installation der Abhängigkeiten können Sie die Beispielskripte (im Unterverzeichnis llama_models/scripts/
) wie folgt ausführen:
#!/bin/bashCHECKPOINT_DIR=~/.llama/checkpoints/Meta-Llama3.1-8B-Instruct PYTHONPATH=$(git rev-parse --show-toplevel) Torchrun llama_models/scripts/example_chat_completion.py $CHECKPOINT_DIR
Das obige Skript sollte mit einem Instruct-Modell (Chat) verwendet werden. Verwenden Sie für ein Basismodell das Skript llama_models/scripts/example_text_completion.py
. Beachten Sie, dass Sie diese Skripte sowohl mit den Modellreihen Llama3 als auch Llama3.1 verwenden können.
Um größere Modelle mit Tensorparallelität auszuführen, sollten Sie Folgendes ändern:
#!/bin/bashNGPUS=8 PYTHONPATH=$(git rev-parse --show-toplevel) Torchrun --nproc_per_node=$NGPUS llama_models/scripts/example_chat_completion.py $CHECKPOINT_DIR --model_parallel_size $NGPUS
Weitere Flexibilität beim Ausführen von Inferenzen (einschließlich der Ausführung von FP8-Inferenzen) finden Sie im Llama Stack
Repository.
Wir bieten auch Downloads auf Hugging Face an, sowohl im Transformer- als auch im nativen llama3
-Format. Um die Gewichte von Hugging Face herunterzuladen, befolgen Sie bitte diese Schritte:
Besuchen Sie eines der Repos, zum Beispiel meta-llama/Meta-Llama-3.1-8B-Instruct.
Lesen und akzeptieren Sie die Lizenz. Sobald Ihr Antrag genehmigt wurde, erhalten Sie Zugriff auf alle Llama 3.1-Modelle sowie frühere Versionen. Beachten Sie, dass die Bearbeitung von Anfragen früher bis zu einer Stunde dauerte.
Um die ursprünglichen nativen Gewichtungen zur Verwendung mit diesem Repo herunterzuladen, klicken Sie auf die Registerkarte „Dateien und Versionen“ und laden Sie den Inhalt des original
herunter. Sie können sie auch über die Befehlszeile herunterladen, wenn Sie pip install huggingface-hub
:
Huggingface-cli download meta-llama/Meta-Llama-3.1-8B-Instruct --include "original/*" --local-dir meta-llama/Meta-Llama-3.1-8B-Instruct
HINWEIS Die ursprünglichen nativen Gewichte von meta-llama/Meta-Llama-3.1-405B wären über dieses HugginFace-Repo nicht verfügbar.
Zur Verwendung mit Transformatoren lädt das folgende Pipeline-Snippet die Gewichtungen herunter und speichert sie zwischen:
import Transformersimport Torchmodel_id = "meta-llama/Meta-Llama-3.1-8B-Instruct"pipeline = Transformers.pipeline( "text-generation", model="meta-llama/Meta-Llama-3.1-8B-Instruct", model_kwargs ={"torch_dtype": Torch.bfloat16}, Gerät="cuda", )
Sie können dieses Repository als Paket installieren, indem Sie einfach pip install llama-models
ausführen
Lama-Modelle sind eine neue Technologie, deren Verwendung potenzielle Risiken birgt. Bisher durchgeführte Tests konnten und konnten nicht alle Szenarien abdecken. Um Entwicklern bei der Bewältigung dieser Risiken zu helfen, haben wir den Leitfaden zur verantwortungsvollen Nutzung erstellt.
Für häufig gestellte Fragen finden Sie hier die FAQ, die im Laufe der Zeit aktualisiert werden, wenn neue Fragen auftauchen.