Vielen Dank, dass Sie sich mit Lama -Models entwickelt haben. Im Rahmen der Veröffentlichung von LLAMA 3.1 haben wir Github -Repos konsolidiert und einige zusätzliche Repos hinzugefügt, da wir Llamas Funktionalität zu einem E2E -Lama -Stack erweitert haben. Bitte verwenden Sie die folgenden Repos für die Zukunft:
Wenn Sie Fragen haben, können Sie bitte ein Problem auf einem der oben genannten Repos einreichen, und wir werden unser Bestes tun, um rechtzeitig zu antworten.
Danke schön!
Wir entsperren die Kraft großer Sprachmodelle. LLAMA 2 ist jetzt für Einzelpersonen, Schöpfer, Forscher und Unternehmen aller Größen zugänglich, damit sie ihre Ideen verantwortungsbewusst experimentieren, innovieren und skalieren können.
Diese Veröffentlichung umfasst Modellgewichte und Startcode für vorgebreitete und fein abgestimmte Lama-Sprachmodelle-von 7B bis 70B-Parametern.
Dieses Repository ist als minimales Beispiel für das Laden von Lama -2 -Modellen und zum Ausführen von Inferenz gedacht. Ausführlichere Beispiele, die das umarmende Gesicht nutzen, siehe Lama-Recipes.
Siehe Updates.md. Auch für eine laufende Liste häufig gestellter Fragen finden Sie hier.
Um die Modellgewichte und die Tokenizer herunterzuladen, besuchen Sie bitte die Meta -Website und akzeptieren Sie unsere Lizenz.
Sobald Ihre Anfrage genehmigt wurde, erhalten Sie eine unterschriebene URL per E -Mail. Führen Sie dann das Skript download.sh aus und geben Sie die bereitgestellte URL über, wenn Sie aufgefordert werden, den Download zu starten.
Voraussetzungen: Stellen Sie sicher, dass Sie wget
und md5sum
installiert haben. Führen Sie dann das Skript aus: ./download.sh
.
Denken Sie daran, dass die Links nach 24 Stunden und einer bestimmten Anzahl von Downloads ablaufen. Wenn Sie anfangen, Fehler wie 403: Forbidden
zu sehen, können Sie immer einen Link wiederholen.
Wir bieten auch Downloads über das umarmende Gesicht an. Sie können Zugriff auf die Modelle anfordern, indem Sie die Lizenz bestätigen und das Formular in der Modellkarte eines Repo ausfüllen. Danach sollten Sie innerhalb von 1 Stunde Zugriff auf alle Lama -Modelle einer Version (Code Lama, Llama 2 oder Llama Guard) erhalten.
Sie können die folgenden Schritte befolgen, um schnell mit Lama 2 -Modellen zu laufen. Mit diesen Schritten können Sie schnell inferenz ausführen. Weitere Beispiele finden Sie im Repository Rezepte Lama 2 Recipes.
In einem Conda Env mit Pytorch / Cuda verfügbarer Klon und laden Sie dieses Repository herunter.
Im obersten Verzeichnislauf:
pip install -e .
Besuchen Sie die Meta -Website und registrieren Sie sich, um das Modell/s herunterzuladen.
Nach der Registrierung erhalten Sie eine E -Mail mit einer URL, um die Modelle herunterzuladen. Sie benötigen diese URL, wenn Sie das Skript download.sh ausführen.
Sobald Sie die E -Mail erhalten haben, navigieren Sie zu Ihrem heruntergeladenen Lama -Repository und führen Sie das Skript download.sh aus.
Sobald das von Ihnen gewünschte Modell heruntergeladen wurde, können Sie das Modell lokal mit dem folgenden Befehl ausführen:
torchrun --nproc_per_node 1 example_chat_completion.py
--ckpt_dir llama-2-7b-chat/
--tokenizer_path tokenizer.model
--max_seq_len 512 --max_batch_size 6
Notiz
llama-2-7b-chat/
durch den Pfad zu Ihrem Checkpoint-Verzeichnis und tokenizer.model
mit dem Pfad zu Ihrem Tokenizer-Modell.–nproc_per_node
sollte auf den MP -Wert für das von Ihnen verwendete Modell eingestellt werden.max_seq_len
und max_batch_size
nach Bedarf an.Unterschiedliche Modelle erfordern unterschiedliche Modell-Parallel-Werte (MP):
Modell | MP |
---|---|
7b | 1 |
13b | 2 |
70b | 8 |
Alle Modelle unterstützen die Sequenzlänge von bis zu 4096 Token, aber wir haben den Cache nach den Werten max_seq_len
und max_batch_size
vorbereiten. Stellen Sie diese also nach Ihrer Hardware ein.
Diese Modelle sind für Chat oder Q & A nicht beendet. Sie sollten aufgefordert werden, dass die erwartete Antwort die natürliche Fortsetzung der Eingabeaufforderung ist.
In einigen Beispielen siehe example_text_completion.py
. Zur Veranschaulichung finden Sie den Befehl unten, um es mit dem LAMA-2-7B-Modell auszuführen ( nproc_per_node
muss auf den MP
Wert eingestellt werden):
torchrun --nproc_per_node 1 example_text_completion.py
--ckpt_dir llama-2-7b/
--tokenizer_path tokenizer.model
--max_seq_len 128 --max_batch_size 4
Die fein abgestimmten Modelle wurden für Dialoganwendungen geschult. Um die erwarteten Funktionen und die Leistung für sie zu erhalten, muss eine spezifische Formatierung, die in chat_completion
definiert ist, befolgt werden, einschließlich der INST
und <<SYS>>
Tags, BOS
und EOS
-Token sowie die Whitespaces und Breakines dazwischen (wir empfehlen, strip()
anzurufen (Strip) strip()
auf Eingänge, um Doppelräume zu vermeiden).
Sie können auch zusätzliche Klassifikatoren bereitstellen, um Eingänge und Ausgänge herauszufiltern, die als unsicher gilt. Weitere Informationen zum Hinzufügen eines Sicherheitsprüfers zu den Eingängen und Ausgängen Ihres Inferenzcode finden Sie im Repo des LLAMA-Recipes Repo.
Beispiele mit LLAMA-2-7B-CHAT:
torchrun --nproc_per_node 1 example_chat_completion.py
--ckpt_dir llama-2-7b-chat/
--tokenizer_path tokenizer.model
--max_seq_len 512 --max_batch_size 6
LLAMA 2 ist eine neue Technologie, die potenzielle Risiken bei der Nutzung mit sich bringt. Bisher durchgeführte Tests haben alle Szenarien nicht abdecken - und konnten nicht. Um den Entwicklern dabei zu helfen, diese Risiken zu beheben, haben wir den verantwortungsbewussten Nutzungshandbuch erstellt. Weitere Details finden Sie auch in unserem Forschungspapier.
Bitte melden Sie einen Software -Fehler oder andere Probleme mit den Modellen über eines der folgenden Mittel:
Siehe model_card.md.
Unser Modell und unsere Gewichte sind sowohl für Forscher als auch für kommerzielle Einrichtungen lizenziert, wodurch die Grundsätze der Offenheit aufrechterhalten werden. Unsere Mission ist es, Einzelpersonen und Industrie durch diese Gelegenheit zu stärken und gleichzeitig ein Umfeld der Entdeckung und der ethischen KI -Fortschritte zu fördern.
Siehe die Lizenzdatei sowie unsere zugehörige Richtlinien für die akzeptable Nutzung
Bei gemeinsamen Fragen finden Sie die FAQ hier, die über die Zeit auf dem Laufenden gehalten werden, wenn neue Fragen auftreten.
Das Repo für die ursprüngliche Lama -Veröffentlichung befindet sich in der llama_v1
-Filiale.