?Models auf Hugging Face |
Wir entfesseln die Kraft großer Sprachmodelle. Unsere neueste Version von Llama steht jetzt Einzelpersonen, Entwicklern, Forschern und Unternehmen jeder Größe zur Verfügung, damit sie verantwortungsbewusst experimentieren, Innovationen entwickeln und ihre Ideen skalieren können.
Diese Version enthält Modellgewichte und Startcode für vorab trainierte und anweisungsoptimierte Llama 3-Sprachmodelle, einschließlich Parametergrößen von 8B bis 70B.
Dieses Repository ist als minimales Beispiel für das Laden eines Llama 3-Modells und die Ausführung von Inferenzen gedacht. Ausführlichere Beispiele finden Sie unter Lama-Rezepte.
Um die Modellgewichte und den Tokenizer herunterzuladen, besuchen Sie bitte die Meta Llama-Website und akzeptieren Sie unsere Lizenzvereinbarung.
Nach dem Absenden Ihrer Anfrage erhalten Sie eine signierte URL per E-Mail. Führen Sie dann das Skript „download.sh“ aus und übergeben Sie die bereitgestellte URL, wenn Sie zum Starten des Downloads aufgefordert werden.
Voraussetzung: Stellen Sie sicher, dass wget
und md5sum
installiert sind. Führen Sie dann das Skript aus: ./download.sh
.
Beachten Sie, dass der Link nach 24 Stunden und einer bestimmten Anzahl von Downloads abläuft. Wenn Sie Fehler wie 403: Forbidden
sehen, können Sie den Link jederzeit erneut anfordern.
Wir bieten auch Downloads auf Hugging Face an, einschließlich Transformern und nativen llama3
-Formaten. Um Gewichte von Hugging Face herunterzuladen, gehen Sie folgendermaßen vor:
original
herunter. Sie können sie auch über die Befehlszeile herunterladen, wenn Sie pip install huggingface-hub
installiert haben: huggingface-cli download meta-llama/Meta-Llama-3-8B-Instruct --include " original/* " --local-dir meta-llama/Meta-Llama-3-8B-Instruct
import transformers
import torch
model_id = "meta-llama/Meta-Llama-3-8B-Instruct"
pipeline = transformers . pipeline (
"text-generation" ,
model = "meta-llama/Meta-Llama-3-8B-Instruct" ,
model_kwargs = { "torch_dtype" : torch . bfloat16 },
device = "cuda" ,
)
Sie können das Llama 3-Modell schnell verwenden, indem Sie die folgenden Schritte ausführen. Mit diesen Schritten können Sie schnell lokal Rückschlüsse ziehen. Weitere Beispiele finden Sie im Lama-Rezept-Repository.
Klonen Sie dieses Repository und laden Sie es in einer Conda-Umgebung mit installiertem PyTorch/CUDA herunter.
Im obersten Verzeichnis ausführen:
pip install -e .
Besuchen Sie die Website von Meta Llama und registrieren Sie sich, um Modelle herunterzuladen.
Nach der Registrierung erhalten Sie eine E-Mail mit der URL zum Herunterladen des Modells. Sie benötigen diese URL, wenn Sie das Skript download.sh ausführen.
Sobald Sie die E-Mail erhalten haben, navigieren Sie zu dem Lama-Repository, das Sie heruntergeladen haben, und führen Sie das Skript download.sh aus.
Nachdem Sie das erforderliche Modell heruntergeladen haben, können Sie das Modell mit dem folgenden Befehl lokal ausführen:
torchrun --nproc_per_node 1 example_chat_completion.py
--ckpt_dir Meta-Llama-3-8B-Instruct/
--tokenizer_path Meta-Llama-3-8B-Instruct/tokenizer.model
--max_seq_len 512 --max_batch_size 6
Beachten
Meta-Llama-3-8B-Instruct/
durch Ihren Checkpoint-Verzeichnispfad und Meta-Llama-3-8B-Instruct/tokenizer.model
durch Ihren Tokenizer-Modellpfad.–nproc_per_node
sollte auf den MP-Wert des von Ihnen verwendeten Modells eingestellt sein.max_seq_len
und max_batch_size
nach Bedarf an.Unterschiedliche Modelle erfordern unterschiedliche Werte für die Modellparallelität (MP):
Modell | Abgeordneter |
---|---|
8B | 1 |
70B | 8 |
Alle Modelle unterstützen Sequenzlängen von bis zu 8192 Token, aber wir weisen den Cache vorab basierend auf den Werten von max_seq_len
und max_batch_size
zu. Stellen Sie diese Werte daher entsprechend Ihrer Hardware ein.
Diese Modelle sind nicht für Chat oder Fragen und Antworten geeignet. Eingabeaufforderungen sollten so eingerichtet werden, dass die erwartete Antwort eine natürliche Fortsetzung der Eingabeaufforderung darstellt.
Einige Beispiele finden Sie unter example_text_completion.py
. Zur Veranschaulichung sehen Sie sich den folgenden Befehl an, um ihn mit dem Modell llama-3-8b auszuführen ( nproc_per_node
muss auf MP
Wert gesetzt werden):
Torchrun --nproc_per_node 1 example_text_completion.py --ckpt_dir Meta-Llama-3-8B/ --tokenizer_path Meta-Llama-3-8B/tokenizer.model --max_seq_len 128 --max_batch_size 4
Fein abgestimmte Modelle werden für Konversationsanwendungen trainiert. Um ihre erwarteten Eigenschaften und Leistung zu erhalten, müssen sie einem bestimmten Format folgen, das in ChatFormat
definiert ist: Eingabeaufforderungen beginnen mit dem speziellen Token <|begin_of_text|>
, gefolgt von einer oder mehreren Nachrichten. Jede Nachricht beginnt mit dem Tag <|start_header_id|>
, hat die Rolle system
, user
oder assistant
und endet mit dem Tag <|end_header_id|>
. Nach dem doppelten Zeilenumbruch nn
nfolgt der Inhalt der Nachricht. Das Ende jeder Nachricht wird durch das Token <|eot_id|>
markiert.
Sie können auch zusätzliche Klassifikatoren einsetzen, um als unsicher eingestufte Eingaben und Ausgaben herauszufiltern. Sehen Sie sich im Lama-Recipes-Repository ein Beispiel an, wie Sie Sicherheitsprüfer zur Eingabe und Ausgabe Ihres Inferenzcodes hinzufügen.
Beispiel mit llama-3-8b-chat:
Torchrun --nproc_per_node 1 example_chat_completion.py --ckpt_dir Meta-Llama-3-8B-Instruct/ --tokenizer_path Meta-Llama-3-8B-Instruct/tokenizer.model --max_seq_len 512 --max_batch_size 6
Lama 3 ist eine neue Technologie und birgt potenzielle Risiken. Die bisher durchgeführten Tests decken nicht alle Situationen ab und können dies auch nicht. Um Entwicklern beim Umgang mit diesen Risiken zu helfen, haben wir Richtlinien zur verantwortungsvollen Nutzung erstellt.
Bitte melden Sie Softwarefehler oder andere Probleme mit dem Modell über eine der folgenden Methoden:
Siehe MODEL_CARD.md.
Unsere Modelle und Gewichte werden nach offenen Grundsätzen an Forscher und kommerzielle Unternehmen lizenziert. Unsere Mission ist es, Einzelpersonen und Branchen durch diese Gelegenheit zu stärken und gleichzeitig ein Umfeld der Entdeckung und ethischen KI-Fortschritt zu fördern.
Bitte lesen Sie das LIZENZdokument sowie unsere Richtlinien zur akzeptablen Nutzung
Für häufig gestellte Fragen finden Sie die FAQ hier https://llama.meta.com/faq, diese wird laufend aktualisiert, sobald neue Fragen auftauchen.