LayerSkip下載 - LayerSkip原始碼下載

LayerSkip

其他源碼

下載

跳層

此程式碼庫是 LayerSkip 的實作：啟用提前退出推理和自推測解碼。

入門

克隆倉庫：

$ git clone [email protected]:facebookresearch/LayerSkip.git
$ cd LayerSkip

設定環境：

$ conda create --name layer_skip python=3.10
$ conda activate layer_skip

$ pip install -r requirements.txt

存取模型：為了觀察加速情況，您需要存取使用 LayerSkip 配方訓練的 LLM。我們在使用 LayerSkip 配方持續預訓練的不同 Llama 型號的 HuggingFace 上提供了 6 個檢查點：
- facebook/layerskip-llama2-7B
- facebook/layerskip-llama2-13B
- facebook/layerskip-codellama-7B
- facebook/layerskip-codellama-34B
- facebook/layerskip-llama3-8B
- facebook/layerskip-llama3.2-1B

為了訪問每個模型：

訪問上面模特對應的鏈接，確保您已使用您的帳戶登入 HuggingFace 網站。
填寫申請表並提交。批准可能需要一段時間，您應該會收到一封電子郵件通知，通知您模型的權限已被授予。
請按照此處的步驟取得使用者存取權令牌。
在命令列中執行huggingface-cli login ，系統將提示您提供在步驟 3 中取得的令牌。

運行這些步驟後，下面運行 LayerSkip 檢查點的命令應該可以工作。

產生

要使用常規自回歸解碼在互動模式下運行我們的模型之一：

$ torchrun generate.py --model facebook/layerskip-llama2-7B 
    --sample True 
    --max_steps 512

為了觀察加速，您需要使用自推測解碼來產生令牌，並指定--exit_layer ，草稿階段退出的層，以及--num_speculations ，草稿令牌的數量：

$ torchrun generate.py --model facebook/layerskip-llama2-7B 
    --sample True 
    --max_steps 512 
    --generation_strategy self_speculative 
    --exit_layer 8 
    --num_speculations 6

尖端：

您可以將--model更改為任何 HuggingFace 模型，但為了觀察自我推測解碼的加速情況，請使用使用 LayerSkip 配方訓練的模型，例如我們在 HuggingFace 上開源的模型。
預設我們啟用採樣。您可以使用--sample 、 --temperature 、 --top_p和--top_k參數來變更採樣行為。
您可以執行python generate.py --help以取得不同命令列參數的詳細資訊。

基準

對資料集進行基準測試：

$ torchrun benchmark.py --model facebook/layerskip-llama2-7B 
    --dataset cnn_dm_summarization 
    --num_samples 100 
    --generation_strategy self_speculative 
    --exit_layer 8 
    --num_speculations 6 
    --output_dir ./logs

尖端：

您可以透過修改--dataset參數來指定不同的任務：
- cnn_dm_summarization ：CNN/DM 總結
- xsum_summarization : XSUM 總結
- cnn_dm_lm ：CNN/DM 語言建模（給定文章的前幾個單詞，產生剩餘的文章）
- human_eval : HumanEval 編碼
預設情況下，任務以 0-shot 方式運行。您可以透過指定--n_shot參數來變更為任何指定的n -shot。
預設我們啟用採樣，而論文中報告的結果是不採樣的貪婪解碼。您可以使用--sample 、 --temperature 、 --top_p和--top_k參數來變更採樣行為。
您可以執行python benchmark.py --help以取得有關不同命令列參數的詳細資訊。

評價

我們已將生成腳本與 Eleuther 語言模型評估工具集成，以支援大量任務並正確後處理生成的文字。

$ torchrun eval.py --model facebook/layerskip-llama2-7B 
    --tasks gsm8k 
    --limit 10 
    --generation_strategy self_speculative 
    --exit_layer 8 
    --num_speculations 6 
    --output_dir ./logs

尖端：

請注意，透過推測性解碼，我們只能從生成任務（例如gsm8k或cnn_dailymail ）中獲得加速，而分類任務，即多項選擇題任務（例如piqa 、 social_iqa ）或真/假問題任務（例如boolq ）將獲得加速。
您可以使用--tasks參數指定 Eleuther Evaluation Harness 支援的任意數量的任務。要獲取所有可能任務的列表，請檢查此連結。
與generate.py和benchmark.py腳本類似，您可以指定不同的模型、資料集和取樣參數
您可以執行python benchmark.py --help以取得有關不同命令列參數的詳細資訊。

掃

我們的推理超參數exit_layer和num_speculations決定推理過程中的加速：

exit_layer ：
- 較小意味著選秀階段速度更快但準確性較低
- 更大意味著更準確但更慢的選秀階段
num_speculations ：
- 越小意味著接受率越高，但驗證階段的攤銷將減少草稿階段的攤銷
- learger 意味著驗證階段將更好地攤銷草稿階段，但接受率會下降

exit_layer和num_speculations的最佳組合可能會隨著模型、資料集和取樣參數的變化而變化。因此，我們提供了一個腳本來掃描不同exit_layer和num_speculations的網格：

$ torchrun sweep.py --model facebook/layerskip-llama2-7B 
    --dataset human_eval 
    --generation_strategy self_speculative 
    --num_samples 150 
    --max_steps 256 
    --output_dir ./logs/ 
    --sample False

這將在--outpu_dir參數指定的目錄中建立一個 CSV 檔案。

尖端：

與generate.py和benchmark.py腳本類似，您可以指定不同的模型、資料集和取樣參數
您可以執行python sweep.py --help以取得不同命令列參數的詳細資訊。

正確性

為了驗證自推測解碼演算法產生的標記是否正確，我們建立了一個腳本來比較自迴歸解碼與自推測解碼的輸出。請注意，我們只能在沒有採樣時保證輸出的等效性（即--sample False ）：

$ torchrun correctness.py --model facebook/layerskip-llama2-7B 
    --dataset human_eval 
    --generation_strategy self_speculative 
    --num_speculations 6 
    --exit_layer 4 
    --num_samples 10 
    --sample False 
    --output_dir ./logs

使用 Docker

Kindy 檢查 DOCKER.md 以使用 docker 設定項目

其他實現

我們還有 LayerSkip 推理的其他實作：

gpt-fast：gpt-fast 是一個簡單且有效率的原生轉換器文字產生。我們在 gpt-fast 程式碼庫中實作了 LayerSkip，以便能夠將其與其他最佳化（例如torch.compile() 、量化和張量並行性）進行組合。
原生 HuggingFace：在每個 HuggingFace 模型的模型卡中，我們提供了簡單的程式碼片段，這些程式碼片段利用 HuggingFace 推測解碼功能，使用簡單的技巧來克隆主模型的早期層，而不克隆其權重。雖然這種實作很簡單，不需要實作其他功能或匯入其他函式庫，但它在草案和驗證階段之間不共用KV快取或執行。

訓練

我們的培訓實施正在進行中。您可以查看此拉取請求以獲取詳細資訊和討論。

執照

LayerSkip 根據 CC-by-NC 授權。請參閱頂級目錄中的 LICENSE 檔案。

貢獻

我們歡迎對 LayerSkip 做出貢獻。如果您有興趣做出貢獻，請參閱此文件。

引文

如果您在研究中使用 LayerSkip，請使用以下 BibTex 條目：

 @misc { layerskip ,
    title = { LayerSkip: Enabling Early Exit Inference and Self-Speculative Decoding } ,
    author = { Mostafa Elhoushi and Akshat Shrivastava and Diana Liskovich and Basil Hosmer and Bram Wasti and Liangzhen Lai and Anas Mahmoud and Bilge Acun and Saurabh Agarwal and Ahmed Roman and Ahmed A Aly and Beidi Chen and Carole-Jean Wu } ,
    booktitle = " Proceedings of the 62nd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers) " ,
    month = aug,
    year = " 2024 " ,
    address = " Bangkok, Thailand " ,
    publisher = " Association for Computational Linguistics " ,
    url = " https://aclanthology.org/2024.acl-long.681 " ,
    doi = " 10.18653/v1/2024.acl-long.681 " ,
    pages = " 12622--12642 " ,
}

展開

附加信息

版本
類型其他源碼
更新時間 2024-11-03
大小 50MB
來自於 Github

相關應用

waymo open dataset

2024-11-18
SmartTube

2024-12-14
Sunamu

2024-12-14
MySchedule.py

2024-12-15
viptools for eslam

2024-12-15
VITAident

2024-12-15

爲您推薦

chat.petals.dev

其他源碼

1.0.0
GPT Prompt Templates

其他源碼

1.0.0
GPTyped

其他源碼

GPTyped 1.0.5
waymo open dataset

其他源碼

December 2023 Update
SmartTube

其他源碼

24.71 Stable
Sunamu

其他源碼

Release 2.2.0
waymo open dataset

其他源碼

December 2023 Update
wp functions

其他類別

1.0.0
termwind

其他類別

v2.3.0

相關資訊全部