LayerSkip Download – LayerSkip -Quellcode herunterladen

LayerSkip

Anderer Quellcode

Herunterladen

LayerSkip

Diese Codebasis ist die Implementierung von LayerSkip: Enabling Early Exit Inference and Self-Speculative Decoding.

Erste Schritte

Klon-Repo:

$ git clone [email protected]:facebookresearch/LayerSkip.git
$ cd LayerSkip

Setup-Umgebung:

$ conda create --name layer_skip python=3.10
$ conda activate layer_skip

$ pip install -r requirements.txt

Zugriffsmodelle: Um eine Beschleunigung zu beobachten, müssen Sie auf LLMs zugreifen, die mit dem LayerSkip-Rezept trainiert wurden. Wir bieten 6 Kontrollpunkte für HuggingFace verschiedener Llama-Modelle, die kontinuierlich mit dem LayerSkip-Rezept vorab trainiert wurden:
- facebook/layerskip-llama2-7B
- facebook/layerskip-llama2-13B
- facebook/layerskip-codellama-7B
- facebook/layerskip-codellama-34B
- facebook/layerskip-llama3-8B
- facebook/layerskip-llama3.2-1B

Um auf jedes Modell zuzugreifen:

Besuchen Sie den entsprechenden Link des Modells oben und stellen Sie sicher, dass Sie mit Ihrem Konto auf der HuggingFace-Website angemeldet sind.
Füllen Sie das Anfrageformular aus und senden Sie es ab. Die Genehmigung kann eine Weile dauern und Sie sollten eine E-Mail-Benachrichtigung erhalten, die Sie darüber informiert, dass die Genehmigung für das Modell erteilt wurde.
Befolgen Sie die Schritte hier, um ein Benutzerzugriffstoken zu erhalten.
Führen Sie in der Befehlszeile huggingface-cli login aus und Sie werden aufgefordert, das Token anzugeben, das Sie in Schritt 3 erhalten haben.

Sobald Sie diese Schritte ausgeführt haben, sollten die folgenden Befehle zum Ausführen der LayerSkip-Prüfpunkte funktionieren.

Erzeugen

So führen Sie eines unserer Modelle im interaktiven Modus mit regulärer autoregressiver Dekodierung aus:

$ torchrun generate.py --model facebook/layerskip-llama2-7B 
    --sample True 
    --max_steps 512

Um die Beschleunigung zu beobachten, müssen Sie selbstspekulative Dekodierung verwenden, um Token zu generieren, und --exit_layer , die Ebene, auf der die Entwurfsphase beendet werden soll, und --num_speculations , die Anzahl der Entwurfs-Tokens angeben:

$ torchrun generate.py --model facebook/layerskip-llama2-7B 
    --sample True 
    --max_steps 512 
    --generation_strategy self_speculative 
    --exit_layer 8 
    --num_speculations 6

Tipps:

Sie können --model in ein beliebiges HuggingFace-Modell ändern, aber um eine Beschleunigung bei der selbstspekulativen Dekodierung zu beobachten, verwenden Sie ein Modell, das mit dem LayerSkip-Rezept trainiert wurde, wie zum Beispiel diejenigen, die wir als Open Source auf HuggingFace bereitgestellt haben.
Standardmäßig aktivieren wir das Sampling. Sie können das Sampling-Verhalten mit den Argumenten --sample , --temperature , --top_p und --top_k ändern.
Sie können python generate.py --help ausführen, um Einzelheiten zu verschiedenen Befehlszeilenargumenten zu erhalten.

Benchmark

So vergleichen Sie einen Datensatz:

$ torchrun benchmark.py --model facebook/layerskip-llama2-7B 
    --dataset cnn_dm_summarization 
    --num_samples 100 
    --generation_strategy self_speculative 
    --exit_layer 8 
    --num_speculations 6 
    --output_dir ./logs

Tipps:

Sie können verschiedene Aufgaben angeben, indem Sie das Argument --dataset ändern:
- cnn_dm_summarization : CNN/DM-Zusammenfassung
- xsum_summarization : XSUM-Zusammenfassung
- cnn_dm_lm : CNN/DM-Sprachmodellierung (anhand der ersten paar Wörter eines Artikels den restlichen Artikel generieren)
- human_eval : HumanEval-Codierung
Standardmäßig werden die Aufgaben als 0-Shot ausgeführt. Sie können zu jedem angegebenen n -shot wechseln, indem Sie das Argument --n_shot angeben.
Standardmäßig aktivieren wir die Stichprobenziehung, während es sich bei den im Artikel gemeldeten Ergebnissen um eine gierige Dekodierung ohne Stichprobenziehung handelte. Sie können das Sampling-Verhalten mit den Argumenten --sample , --temperature , --top_p und --top_k ändern.
Sie können python benchmark.py --help ausführen, um Details zu verschiedenen Befehlszeilenargumenten zu erhalten.

Auswerten

Wir haben unsere Generierungsskripte in Eleuther Language Model Evaluation Harness integriert, um eine große Anzahl von Aufgaben zu ermöglichen und generierten Text ordnungsgemäß nachzubearbeiten.

$ torchrun eval.py --model facebook/layerskip-llama2-7B 
    --tasks gsm8k 
    --limit 10 
    --generation_strategy self_speculative 
    --exit_layer 8 
    --num_speculations 6 
    --output_dir ./logs

Tipps:

Beachten Sie, dass wir mit der spekulativen Dekodierung nur Beschleunigungen durch Generierungsaufgaben (z. B. gsm8k oder cnn_dailymail ) erzielen können, während dies bei Klassifizierungsaufgaben, z. B. Multiple-Choice-Fragenaufgaben (z. B. piqa , social_iqa ) oder Wahr/Falsch-Fragenaufgaben (z. B. boolq ) der Fall ist nicht zu einer Beschleunigung führen.
Mit dem Argument --tasks können Sie eine beliebige Anzahl von Aufgaben angeben, die von Eleuther Evaluation Harness unterstützt werden. Um eine Liste aller möglichen Aufgaben zu erhalten, klicken Sie auf diesen Link.
Ähnlich wie bei den Skripten generate.py und benchmark.py können Sie verschiedene Modelle, Datensätze und Stichprobenparameter angeben
Sie können python benchmark.py --help ausführen, um Details zu verschiedenen Befehlszeilenargumenten zu erhalten.

Fegen

Unsere Inferenz-Hyperparameter exit_layer und num_speculations bestimmen die Beschleunigung während der Inferenz:

exit_layer :
- kleiner bedeutet eine schnellere, aber ungenauere Entwurfsphase
- größer bedeutet eine genauere, aber langsamere Entwurfsphase
num_speculations :
- kleiner bedeutet höhere Akzeptanzrate, aber die Verifizierungsphase amortisiert sich weniger als die Entwurfsphase
- Größer bedeutet, dass die Verifizierungsphase die Entwurfsphase besser amortisiert, aber die Akzeptanzrate sinkt

Die optimale Kombination von exit_layer und num_speculations kann sich je nach Modell, Datensatz und Stichprobenparametern ändern. Daher haben wir ein Skript bereitgestellt, um ein Raster aus verschiedenen exit_layer und num_speculations zu durchsuchen:

$ torchrun sweep.py --model facebook/layerskip-llama2-7B 
    --dataset human_eval 
    --generation_strategy self_speculative 
    --num_samples 150 
    --max_steps 256 
    --output_dir ./logs/ 
    --sample False

Dadurch wird eine CSV-Datei in dem im Argument --outpu_dir angegebenen Verzeichnis erstellt.

Tipps:

Ähnlich wie bei den Skripten generate.py und benchmark.py können Sie verschiedene Modelle, Datensätze und Stichprobenparameter angeben
Sie können python sweep.py --help ausführen, um Details zu verschiedenen Befehlszeilenargumenten zu erhalten.

Richtigkeit

Um zu überprüfen, ob die generierten Token unseres selbstspekulativen Dekodierungsalgorithmus korrekt sind, haben wir ein Skript erstellt, um die Ergebnisse der autoregressiven Dekodierung mit denen der selbstspekulativen Dekodierung zu vergleichen. Beachten Sie, dass wir die Äquivalenz der Ausgaben nur garantieren können, wenn kein Sampling erfolgt (z. B. --sample False ):

$ torchrun correctness.py --model facebook/layerskip-llama2-7B 
    --dataset human_eval 
    --generation_strategy self_speculative 
    --num_speculations 6 
    --exit_layer 4 
    --num_samples 10 
    --sample False 
    --output_dir ./logs

Mit Docker

Bitte überprüfen Sie DOCKER.md, um das Projekt mit Docker einzurichten

Andere Implementierungen

Wir haben auch andere Implementierungen der LayerSkip-Inferenz:

gpt-fast: gpt-fast ist eine einfache und effiziente pytorch-native Transformer-Textgenerierung. Wir haben LayerSkip in der gpt-fast-Codebasis implementiert, um die Kombination mit anderen Optimierungen wie torch.compile() , Quantisierung und Tensorparallelität zu ermöglichen.
Natives HuggingFace: In der Modellkarte jedes unserer HuggingFace-Modelle haben wir einfache Codeausschnitte bereitgestellt, die die spekulativen Decodierungsfunktionen von HuggingFace nutzen und einen einfachen Trick nutzen, um die früheren Schichten des Hauptmodells zu klonen, ohne dessen Gewichte zu klonen. Obwohl diese Implementierung einfach ist und keine Implementierung anderer Funktionen oder den Import anderer Bibliotheken erfordert, wird der KV-Cache oder die Ausführung nicht zwischen der Entwurfs- und der Überprüfungsphase geteilt.

Ausbildung

Die Implementierung unserer Schulung ist in Arbeit. Einzelheiten und Diskussionen finden Sie in dieser Pull-Anfrage.

Lizenz

LayerSkip ist unter der CC-by-NC-Lizenz lizenziert. Sehen Sie sich die Datei LICENSE im Verzeichnis der obersten Ebene an.

Mitwirken

Wir freuen uns über Beiträge zu LayerSkip. Wenn Sie daran interessiert sind, einen Beitrag zu leisten, sehen Sie sich bitte dieses Dokument an.

Zitat

Wenn Sie LayerSkip in Ihrer Recherche verwenden, verwenden Sie bitte den folgenden BibTex-Eintrag:

 @misc { layerskip ,
    title = { LayerSkip: Enabling Early Exit Inference and Self-Speculative Decoding } ,
    author = { Mostafa Elhoushi and Akshat Shrivastava and Diana Liskovich and Basil Hosmer and Bram Wasti and Liangzhen Lai and Anas Mahmoud and Bilge Acun and Saurabh Agarwal and Ahmed Roman and Ahmed A Aly and Beidi Chen and Carole-Jean Wu } ,
    booktitle = " Proceedings of the 62nd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers) " ,
    month = aug,
    year = " 2024 " ,
    address = " Bangkok, Thailand " ,
    publisher = " Association for Computational Linguistics " ,
    url = " https://aclanthology.org/2024.acl-long.681 " ,
    doi = " 10.18653/v1/2024.acl-long.681 " ,
    pages = " 12622--12642 " ,
}