? Models auf umarmendem Gesicht | Blog | Website | Legen Sie los
Vielen Dank für die Entwicklung mit Llama-Modellen. Im Rahmen der Llama 3.1-Version haben wir GitHub-Repos konsolidiert und einige zusätzliche Repos hinzugefügt, während wir die Funktionalität von Llama zu einem e2e-Llama-Stack erweitert haben. Bitte verwenden Sie in Zukunft die folgenden Repos:
Lama-Modelle – Zentrales Repo für die Grundmodelle, einschließlich grundlegender Dienstprogramme, Modellkarten, Lizenz- und Nutzungsrichtlinien
PurpleLlama – Schlüsselkomponente von Llama Stack mit Schwerpunkt auf Sicherheitsrisiken und Reduzierung der Inferenzzeit
Lama-Toolchain – Modellentwicklungsschnittstellen (Inferenz/Feinabstimmung/Sicherheitsschilde/Generierung synthetischer Daten) und kanonische Implementierungen
llama-agentic-system – E2E-Standalone-Llama-Stack-System, zusammen mit einer eigenen zugrunde liegenden Schnittstelle, die die Erstellung von Agentenanwendungen ermöglicht
Lama-Rezepte – Community-gesteuerte Skripte und Integrationen
Wenn Sie Fragen haben, können Sie gerne ein Problem zu einem der oben genannten Repos einreichen. Wir werden unser Bestes tun, um Ihnen zeitnah zu antworten.
Danke schön!
Wir erschließen die Leistungsfähigkeit großer Sprachmodelle. Unsere neueste Version von Llama ist jetzt für Einzelpersonen, Entwickler, Forscher und Unternehmen jeder Größe zugänglich, damit sie verantwortungsvoll experimentieren, Innovationen entwickeln und ihre Ideen skalieren können.
Diese Version enthält Modellgewichte und Startcode für vorab trainierte und anweisungsoptimierte Llama 3-Sprachmodelle – einschließlich Parametergrößen von 8B bis 70B.
Dieses Repository ist ein minimales Beispiel für das Laden von Llama 3-Modellen und das Ausführen von Inferenzen. Ausführlichere Beispiele finden Sie unter Lama-Rezepte.
Um die Modellgewichte und den Tokenizer herunterzuladen, besuchen Sie bitte die Meta Llama-Website und akzeptieren Sie unsere Lizenz.
Sobald Ihre Anfrage genehmigt wurde, erhalten Sie eine signierte URL per E-Mail. Führen Sie dann das Skript download.sh aus und übergeben Sie die angegebene URL, wenn Sie zum Starten des Downloads aufgefordert werden.
Voraussetzungen: Stellen Sie sicher, dass wget
und md5sum
installiert sind. Führen Sie dann das Skript aus: ./download.sh
.
Denken Sie daran, dass die Links nach 24 Stunden und einer bestimmten Anzahl an Downloads ablaufen. Sie können jederzeit einen Link erneut anfordern, wenn Fehler wie 403: Forbidden
angezeigt werden.
Wir bieten auch Downloads auf Hugging Face an, sowohl im Transformer- als auch im nativen llama3
-Format. Um die Gewichte von Hugging Face herunterzuladen, befolgen Sie bitte diese Schritte:
Besuchen Sie eines der Repos, zum Beispiel meta-llama/Meta-Llama-3-8B-Instruct.
Lesen und akzeptieren Sie die Lizenz. Sobald Ihr Antrag genehmigt wurde, erhalten Sie Zugriff auf alle Llama 3-Modelle. Beachten Sie, dass die Bearbeitung von Anfragen früher bis zu einer Stunde dauerte.
Um die ursprünglichen nativen Gewichtungen zur Verwendung mit diesem Repo herunterzuladen, klicken Sie auf die Registerkarte „Dateien und Versionen“ und laden Sie den Inhalt des original
herunter. Sie können sie auch über die Befehlszeile herunterladen, wenn Sie pip install huggingface-hub
:
Huggingface-cli download meta-llama/Meta-Llama-3-8B-Instruct --include "original/*" --local-dir meta-llama/Meta-Llama-3-8B-Instruct
Zur Verwendung mit Transformatoren lädt das folgende Pipeline-Snippet die Gewichtungen herunter und speichert sie zwischen:
import Transformersimport Torchmodel_id = "meta-llama/Meta-Llama-3-8B-Instruct"pipeline = Transformers.pipeline( "text-generation", model="meta-llama/Meta-Llama-3-8B-Instruct", model_kwargs ={"torch_dtype": Torch.bfloat16}, Gerät="cuda", )
Sie können die folgenden Schritte ausführen, um schnell mit den Llama 3-Modellen loszulegen. Mit diesen Schritten können Sie eine schnelle Inferenz lokal ausführen. Weitere Beispiele finden Sie im Lama-Rezept-Repository.
Klonen Sie dieses Repository und laden Sie es in einer Conda-Umgebung mit PyTorch/CUDA herunter.
Führen Sie im Verzeichnis der obersten Ebene Folgendes aus:
pip install -e .
Besuchen Sie die Website von Meta Llama und registrieren Sie sich, um das/die Modell(e) herunterzuladen.
Nach der Registrierung erhalten Sie eine E-Mail mit einer URL zum Herunterladen der Modelle. Sie benötigen diese URL, wenn Sie das Skript download.sh ausführen.
Sobald Sie die E-Mail erhalten haben, navigieren Sie zu Ihrem heruntergeladenen Lama-Repository und führen Sie das Skript download.sh aus.
Stellen Sie sicher, dass Sie dem Skript download.sh Ausführungsberechtigungen erteilen
Während dieses Vorgangs werden Sie aufgefordert, die URL aus der E-Mail einzugeben.
Verwenden Sie nicht die Option „Link kopieren“. Kopieren Sie den Link manuell aus der E-Mail.
Sobald das/die gewünschte(n) Modell(e) heruntergeladen wurden, können Sie das Modell mit dem folgenden Befehl lokal ausführen:
Torchrun --nproc_per_node 1 example_chat_completion.py --ckpt_dir Meta-Llama-3-8B-Instruct/ --tokenizer_path Meta-Llama-3-8B-Instruct/tokenizer.model --max_seq_len 512 --max_batch_size 6
Notiz
Ersetzen Sie Meta-Llama-3-8B-Instruct/
durch den Pfad zu Ihrem Checkpoint-Verzeichnis und Meta-Llama-3-8B-Instruct/tokenizer.model
durch den Pfad zu Ihrem Tokenizer-Modell.
–nproc_per_node
sollte auf den MP-Wert für das von Ihnen verwendete Modell eingestellt werden.
Passen Sie die Parameter max_seq_len
und max_batch_size
nach Bedarf an.
In diesem Beispiel wird die in diesem Repository gefundene Datei „example_chat_completion.py“ ausgeführt. Sie können diese jedoch in eine andere .py-Datei ändern.
Unterschiedliche Modelle erfordern unterschiedliche modellparallele (MP) Werte:
Modell | Abgeordneter |
---|---|
8B | 1 |
70B | 8 |
Alle Modelle unterstützen eine Sequenzlänge von bis zu 8192 Token, wir weisen den Cache jedoch vorab entsprechend den Werten max_seq_len
und max_batch_size
zu. Stellen Sie diese also entsprechend Ihrer Hardware ein.
Diese Modelle sind nicht für Chat oder Fragen und Antworten geeignet. Sie sollten so aufgefordert werden, dass die erwartete Antwort die natürliche Fortsetzung der Eingabeaufforderung ist.
Einige Beispiele finden Sie unter example_text_completion.py
. Zur Veranschaulichung sehen Sie sich den folgenden Befehl an, um ihn mit dem Modell llama-3-8b auszuführen ( nproc_per_node
muss auf den MP
Wert gesetzt werden):
torchrun --nproc_per_node 1 example_text_completion.py --ckpt_dir Meta-Llama-3-8B/ --tokenizer_path Meta-Llama-3-8B/tokenizer.model --max_seq_len 128 --max_batch_size 4
Die fein abgestimmten Modelle wurden für Dialoganwendungen trainiert. Um die erwarteten Funktionen und Leistung zu erhalten, müssen bestimmte in ChatFormat
definierte Formatierungen befolgt werden: Die Eingabeaufforderung beginnt mit einem speziellen <|begin_of_text|>
-Token, woraufhin eine oder mehrere Nachrichten folgen. Jede Nachricht beginnt mit dem Tag <|start_header_id|>
, dem system
, user
oder assistant
und dem Tag <|end_header_id|>
. Nach einem doppelten Zeilenumbruch nn
folgt der Inhalt der Nachricht. Das Ende jeder Nachricht wird durch das Token <|eot_id|>
markiert.
Sie können auch zusätzliche Klassifikatoren einsetzen, um Ein- und Ausgaben herauszufiltern, die als unsicher gelten. Im Lama-Recipes-Repo finden Sie ein Beispiel dafür, wie Sie den Ein- und Ausgängen Ihres Inferenzcodes einen Sicherheitschecker hinzufügen.
Beispiele für die Verwendung von llama-3-8b-chat:
torchrun --nproc_per_node 1 example_chat_completion.py --ckpt_dir Meta-Llama-3-8B-Instruct/ --tokenizer_path Meta-Llama-3-8B-Instruct/tokenizer.model --max_seq_len 512 --max_batch_size 6
Llama 3 ist eine neue Technologie, deren Verwendung potenzielle Risiken birgt. Bisher durchgeführte Tests konnten und konnten nicht alle Szenarien abdecken. Um Entwicklern bei der Bewältigung dieser Risiken zu helfen, haben wir den Leitfaden zur verantwortungsvollen Nutzung erstellt.
Bitte melden Sie etwaige Softwarefehler oder andere Probleme mit den Modellen auf eine der folgenden Weisen:
Probleme mit dem Modell melden: https://github.com/meta-llama/llama3/issues
Vom Modell generierte riskante Inhalte melden: Developers.facebook.com/llama_output_feedback
Melden Sie Fehler und Sicherheitsbedenken: facebook.com/whitehat/info
Siehe MODEL_CARD.md.
Unser Modell und unsere Gewichte sind für Forscher und kommerzielle Unternehmen lizenziert und wahren die Grundsätze der Offenheit. Unsere Mission ist es, Einzelpersonen und die Industrie durch diese Gelegenheit zu stärken und gleichzeitig ein Umfeld der Entdeckung und ethischen KI-Fortschritte zu fördern.
Sehen Sie sich die LIZENZdatei sowie unsere begleitende Richtlinie zur akzeptablen Nutzung an
Für häufig gestellte Fragen finden Sie hier die FAQ, die im Laufe der Zeit aktualisiert werden, wenn neue Fragen auftauchen.