llama DOWNLOAD - llama Quellcode Download

llama

Anderer Quellcode

Herunterladen

Bezeichnung der Abschaltung

Vielen Dank, dass Sie sich mit Lama -Models entwickelt haben. Im Rahmen der Veröffentlichung von LLAMA 3.1 haben wir Github -Repos konsolidiert und einige zusätzliche Repos hinzugefügt, da wir Llamas Funktionalität zu einem E2E -Lama -Stack erweitert haben. Bitte verwenden Sie die folgenden Repos für die Zukunft:

LAMA -Modelle - Zentrales Repo für die Grundlagenmodelle, einschließlich grundlegender Versorgungsunternehmen, Modellkarten, Lizenz und Verwendung von Richtlinien
Purplellama - Schlüsselkomponente des Lama -Stacks mit Schwerpunkt auf Sicherheitsrisiken und Inferenzzeitminderungen
Lama-Toolchain-Modellentwicklung (Inferenz-/Feinabstimmung/Sicherheitsschilde/synthetische Datenerzeugung) Schnittstellen und kanonische Implementierungen
Lama-Agentic-System-E2E Standalone Lama Stack-System sowie die zugrunde liegende Schnittstelle, die die Erstellung von Agentenanwendungen ermöglicht
Lama -Recipes - Community -gesteuerte Skripte und Integrationen

Wenn Sie Fragen haben, können Sie bitte ein Problem auf einem der oben genannten Repos einreichen, und wir werden unser Bestes tun, um rechtzeitig zu antworten.

Danke schön!

(Veraltet) Lama 2

Wir entsperren die Kraft großer Sprachmodelle. LLAMA 2 ist jetzt für Einzelpersonen, Schöpfer, Forscher und Unternehmen aller Größen zugänglich, damit sie ihre Ideen verantwortungsbewusst experimentieren, innovieren und skalieren können.

Diese Veröffentlichung umfasst Modellgewichte und Startcode für vorgebreitete und fein abgestimmte Lama-Sprachmodelle-von 7B bis 70B-Parametern.

Dieses Repository ist als minimales Beispiel für das Laden von Lama -2 -Modellen und zum Ausführen von Inferenz gedacht. Ausführlichere Beispiele, die das umarmende Gesicht nutzen, siehe Lama-Recipes.

Aktualisiert Post-Start

Siehe Updates.md. Auch für eine laufende Liste häufig gestellter Fragen finden Sie hier.

Herunterladen

Um die Modellgewichte und die Tokenizer herunterzuladen, besuchen Sie bitte die Meta -Website und akzeptieren Sie unsere Lizenz.

Sobald Ihre Anfrage genehmigt wurde, erhalten Sie eine unterschriebene URL per E -Mail. Führen Sie dann das Skript download.sh aus und geben Sie die bereitgestellte URL über, wenn Sie aufgefordert werden, den Download zu starten.

Voraussetzungen: Stellen Sie sicher, dass Sie wget und md5sum installiert haben. Führen Sie dann das Skript aus: ./download.sh .

Denken Sie daran, dass die Links nach 24 Stunden und einer bestimmten Anzahl von Downloads ablaufen. Wenn Sie anfangen, Fehler wie 403: Forbidden zu sehen, können Sie immer einen Link wiederholen.

Zugang zum umarmten Gesicht

Wir bieten auch Downloads über das umarmende Gesicht an. Sie können Zugriff auf die Modelle anfordern, indem Sie die Lizenz bestätigen und das Formular in der Modellkarte eines Repo ausfüllen. Danach sollten Sie innerhalb von 1 Stunde Zugriff auf alle Lama -Modelle einer Version (Code Lama, Llama 2 oder Llama Guard) erhalten.

Schneller Start

Sie können die folgenden Schritte befolgen, um schnell mit Lama 2 -Modellen zu laufen. Mit diesen Schritten können Sie schnell inferenz ausführen. Weitere Beispiele finden Sie im Repository Rezepte Lama 2 Recipes.

In einem Conda Env mit Pytorch / Cuda verfügbarer Klon und laden Sie dieses Repository herunter.
Im obersten Verzeichnislauf:
```
pip install -e .
```
Besuchen Sie die Meta -Website und registrieren Sie sich, um das Modell/s herunterzuladen.
Nach der Registrierung erhalten Sie eine E -Mail mit einer URL, um die Modelle herunterzuladen. Sie benötigen diese URL, wenn Sie das Skript download.sh ausführen.
Sobald Sie die E -Mail erhalten haben, navigieren Sie zu Ihrem heruntergeladenen Lama -Repository und führen Sie das Skript download.sh aus.
- Stellen Sie sicher
- Während dieses Vorgangs werden Sie aufgefordert, die URL aus der E -Mail einzugeben.
- Verwenden Sie nicht die Option "Link kopieren", sondern stellen Sie sicher, dass Sie den Link manuell aus der E -Mail kopieren.
Sobald das von Ihnen gewünschte Modell heruntergeladen wurde, können Sie das Modell lokal mit dem folgenden Befehl ausführen:

torchrun --nproc_per_node 1 example_chat_completion.py 
    --ckpt_dir llama-2-7b-chat/ 
    --tokenizer_path tokenizer.model 
    --max_seq_len 512 --max_batch_size 6

Notiz

Ersetzen Sie llama-2-7b-chat/ durch den Pfad zu Ihrem Checkpoint-Verzeichnis und tokenizer.model mit dem Pfad zu Ihrem Tokenizer-Modell.
Der –nproc_per_node sollte auf den MP -Wert für das von Ihnen verwendete Modell eingestellt werden.
Passen Sie die Parameter max_seq_len und max_batch_size nach Bedarf an.
In diesem Beispiel wird die in diesem Repository gefundene Beispiel_Chat_Completion.py ausgeführt, aber Sie können dies in eine andere .py -Datei ändern.

Schlussfolgerung

Unterschiedliche Modelle erfordern unterschiedliche Modell-Parallel-Werte (MP):

Modell	MP
7b	1
13b	2
70b	8

Alle Modelle unterstützen die Sequenzlänge von bis zu 4096 Token, aber wir haben den Cache nach den Werten max_seq_len und max_batch_size vorbereiten. Stellen Sie diese also nach Ihrer Hardware ein.

Vorbereitete Modelle

Diese Modelle sind für Chat oder Q & A nicht beendet. Sie sollten aufgefordert werden, dass die erwartete Antwort die natürliche Fortsetzung der Eingabeaufforderung ist.

In einigen Beispielen siehe example_text_completion.py . Zur Veranschaulichung finden Sie den Befehl unten, um es mit dem LAMA-2-7B-Modell auszuführen ( nproc_per_node muss auf den MP Wert eingestellt werden):

 torchrun --nproc_per_node 1 example_text_completion.py 
    --ckpt_dir llama-2-7b/ 
    --tokenizer_path tokenizer.model 
    --max_seq_len 128 --max_batch_size 4

Feinabstimmige Chat-Modelle

Die fein abgestimmten Modelle wurden für Dialoganwendungen geschult. Um die erwarteten Funktionen und die Leistung für sie zu erhalten, muss eine spezifische Formatierung, die in chat_completion definiert ist, befolgt werden, einschließlich der INST und <<SYS>> Tags, BOS und EOS -Token sowie die Whitespaces und Breakines dazwischen (wir empfehlen, strip() anzurufen (Strip) strip() auf Eingänge, um Doppelräume zu vermeiden).

Sie können auch zusätzliche Klassifikatoren bereitstellen, um Eingänge und Ausgänge herauszufiltern, die als unsicher gilt. Weitere Informationen zum Hinzufügen eines Sicherheitsprüfers zu den Eingängen und Ausgängen Ihres Inferenzcode finden Sie im Repo des LLAMA-Recipes Repo.

Beispiele mit LLAMA-2-7B-CHAT:

 torchrun --nproc_per_node 1 example_chat_completion.py 
    --ckpt_dir llama-2-7b-chat/ 
    --tokenizer_path tokenizer.model 
    --max_seq_len 512 --max_batch_size 6

LLAMA 2 ist eine neue Technologie, die potenzielle Risiken bei der Nutzung mit sich bringt. Bisher durchgeführte Tests haben alle Szenarien nicht abdecken - und konnten nicht. Um den Entwicklern dabei zu helfen, diese Risiken zu beheben, haben wir den verantwortungsbewussten Nutzungshandbuch erstellt. Weitere Details finden Sie auch in unserem Forschungspapier.

Probleme

Bitte melden Sie einen Software -Fehler oder andere Probleme mit den Modellen über eines der folgenden Mittel:

Berichtsprobleme mit dem Modell: github.com/facebookresearch/llama
Berichterstattung riskanter Inhalte, die vom Modell generiert werden: Entwickler.facebook.com/llama_output_feedback
Meldung von Fehler und Sicherheitsbedenken: facebook.com/whitehat/info

Modellkarte

Siehe model_card.md.

Lizenz

Unser Modell und unsere Gewichte sind sowohl für Forscher als auch für kommerzielle Einrichtungen lizenziert, wodurch die Grundsätze der Offenheit aufrechterhalten werden. Unsere Mission ist es, Einzelpersonen und Industrie durch diese Gelegenheit zu stärken und gleichzeitig ein Umfeld der Entdeckung und der ethischen KI -Fortschritte zu fördern.

Siehe die Lizenzdatei sowie unsere zugehörige Richtlinien für die akzeptable Nutzung