LayerSkipダウンロード - LayerSkipソースコードのダウンロード

LayerSkip

その他のソースコード

ダウンロード

レイヤースキップ

このコードベースは、LayerSkip の実装です。早期終了推論と自己投機的デコードの有効化です。

はじめる

リポジトリのクローンを作成します。

$ git clone [email protected]:facebookresearch/LayerSkip.git
$ cd LayerSkip

セットアップ環境:

$ conda create --name layer_skip python=3.10
$ conda activate layer_skip

$ pip install -r requirements.txt

モデルへのアクセス: 高速化を確認するには、LayerSkip レシピを使用してトレーニングされた LLM にアクセスする必要があります。 LayerSkip レシピを使用して継続的に事前トレーニングされたさまざまな Llama モデルの HuggingFace に 6 つのチェックポイントを提供します。
- facebook/layerskip-llama2-7B
- facebook/layerskip-llama2-13B
- facebook/layerskip-codellama-7B
- facebook/layerskip-codellama-34B
- facebook/layerskip-llama3-8B
- facebook/layerskip-llama3.2-1B

各モデルにアクセスするには:

上記のモデルに対応するリンクにアクセスし、自分のアカウントで HuggingFace Web サイトにログインしていることを確認してください。
リクエストフォームに記入して送信してください。承認には時間がかかる場合があります。モデルへのアクセス許可が付与されたことを通知する電子メール通知が届きます。
ユーザーアクセストークンを取得するには、ここの手順に従ってください。
コマンドラインで、 huggingface-cli login実行すると、ステップ 3 で取得したトークンを入力するよう求められます。

これらの手順を実行すると、LayerSkip チェックポイントを実行するための以下のコマンドが機能するはずです。

生成する

通常の自己回帰デコードを使用してモデルの 1 つを対話モードで実行するには、次のようにします。

$ torchrun generate.py --model facebook/layerskip-llama2-7B 
    --sample True 
    --max_steps 512

高速化を確認するには、自己投機的デコードを使用してトークンを生成し、終了するドラフトステージの層である--exit_layerと、ドラフトトークンの数である--num_speculationsを指定する必要があります。

$ torchrun generate.py --model facebook/layerskip-llama2-7B 
    --sample True 
    --max_steps 512 
    --generation_strategy self_speculative 
    --exit_layer 8 
    --num_speculations 6

ヒント:

--model任意の HuggingFace モデルに変更できますが、自己投機的デコードによる高速化を確認するには、HuggingFace でオープンソース化されているような、LayerSkip レシピを使用してトレーニングされたモデルを使用してください。
デフォルトではサンプリングが有効になっています。 --sample 、 --temperature 、 --top_p 、および--top_k引数を使用してサンプリング動作を変更できます。
さまざまなコマンドライン引数の詳細については、 python generate.py --helpを実行してください。

ベンチマーク

データセットのベンチマークを実行するには:

$ torchrun benchmark.py --model facebook/layerskip-llama2-7B 
    --dataset cnn_dm_summarization 
    --num_samples 100 
    --generation_strategy self_speculative 
    --exit_layer 8 
    --num_speculations 6 
    --output_dir ./logs

ヒント:

--dataset引数を変更することで、さまざまなタスクを指定できます。
- cnn_dm_summarization : CNN/DM 要約
- xsum_summarization : XSUM 要約
- cnn_dm_lm : CNN/DM 言語モデリング (記事の最初の数単語を指定して、残りの記事を生成)
- human_eval : HumanEval コーディング
デフォルトでは、タスクは 0 ショットとして実行されます。 --n_shot引数を指定すると、指定したnショットに変更できます。
デフォルトではサンプリングが有効になっていますが、論文で報告されている結果はサンプリングなしの貪欲なデコードでした。 --sample 、 --temperature 、 --top_p 、および--top_k引数を使用してサンプリング動作を変更できます。
さまざまなコマンドライン引数の詳細については、 python benchmark.py --help実行してください。

評価する

生成スクリプトを Eleuther 言語モデル評価ハーネスと統合して、多数のタスクと生成されたテキストの適切な後処理を可能にしました。

$ torchrun eval.py --model facebook/layerskip-llama2-7B 
    --tasks gsm8k 
    --limit 10 
    --generation_strategy self_speculative 
    --exit_layer 8 
    --num_speculations 6 
    --output_dir ./logs

ヒント:

投機的デコードでは、生成タスク (例: gsm8kまたはcnn_dailymail ) からのみ高速化を得ることができますが、分類タスク、つまり、多肢選択質問タスク (例: piqa 、 social_iqa ) または正誤問題タスク (例: boolq ) では速度向上が得られることに注意してください。高速化にはつながりません。
--tasks引数を使用して、Eleuther 評価ハーネスでサポートされる任意の数のタスクを指定できます。考えられるすべてのタスクのリストを取得するには、このリンクを確認してください。
generate.pyおよびbenchmark.pyスクリプトと同様に、さまざまなモデル、データセット、サンプリングパラメーターを指定できます。
さまざまなコマンドライン引数の詳細については、 python benchmark.py --help実行してください。

スイープ

推論ハイパーパラメータであるexit_layerとnum_speculations 、推論中の高速化を決定します。

exit_layer :
- 小さいほど、ドラフトステージは高速になりますが、精度が低くなります。
- 大きいほど正確ですが、ドラフト段階が遅くなります。
num_speculations :
- 小さいほど承認率は高くなりますが、検証段階ではドラフト段階よりも償却が少なくなります。
- より広いということは、検証段階でドラフト段階の償却が改善されるが、承認率が低下することを意味します

exit_layerとnum_speculationsの最適な組み合わせは、モデル、データセット、サンプリングパラメーターによって異なる場合があります。したがって、異なるexit_layerとnum_speculationsのグリッドをスイープするスクリプトを提供しました。

$ torchrun sweep.py --model facebook/layerskip-llama2-7B 
    --dataset human_eval 
    --generation_strategy self_speculative 
    --num_samples 150 
    --max_steps 256 
    --output_dir ./logs/ 
    --sample False

これにより、 --outpu_dir引数で指定されたディレクトリに CSV ファイルが作成されます。

ヒント:

generate.pyおよびbenchmark.pyスクリプトと同様に、さまざまなモデル、データセット、サンプリングパラメーターを指定できます。
さまざまなコマンドライン引数の詳細については、 python sweep.py --helpを実行してください。

正しさ

自己投機的復号化アルゴリズムで生成されたトークンが正しいことを検証するために、自己回帰的復号化の出力と自己投機的復号化の出力を比較するスクリプトを作成しました。出力は、サンプリングがない場合 (つまり、 --sample False ) にのみ同等性を保証できることに注意してください。

$ torchrun correctness.py --model facebook/layerskip-llama2-7B 
    --dataset human_eval 
    --generation_strategy self_speculative 
    --num_speculations 6 
    --exit_layer 4 
    --num_samples 10 
    --sample False 
    --output_dir ./logs

Docker の使用

Docker を使用してプロジェクトをセットアップするには、DOCKER.md を確認してください。

その他の実装

LayerSkip 推論の他の実装もあります。

gpt-fast: gpt-fast は、シンプルかつ効率的な pytorch ネイティブのトランスフォーマーテキスト生成です。 gpt-fast コードベースに LayerSkip を実装し、 torch.compile() 、量子化、テンソル並列処理などの他の最適化と複合できるようにしました。
ネイティブ HuggingFace: 各 HuggingFace モデルのモデルカードには、重みを複製せずにメインモデルの以前の層を複製する簡単なトリックを使用して、HuggingFace の投機的デコード機能を活用する簡単なコードスニペットが提供されています。この実装は単純で、他の関数の実装や他のライブラリのインポートを必要としませんが、ドラフト段階と検証段階の間で KV キャッシュや実行を共有しません。

トレーニング

トレーニングの実施は進行中です。詳細とディスカッションについては、このプルリクエストを確認してください。

ライセンス

LayerSkip は CC-by-NC ライセンスに基づいてライセンスされています。最上位ディレクトリにある LICENSE ファイルを参照してください。

貢献する

LayerSkip への貢献を歓迎します。貢献に興味がある場合は、このドキュメントを参照してください。

引用

研究で LayerSkip を使用する場合は、次の BibTex エントリを使用してください。

 @misc { layerskip ,
    title = { LayerSkip: Enabling Early Exit Inference and Self-Speculative Decoding } ,
    author = { Mostafa Elhoushi and Akshat Shrivastava and Diana Liskovich and Basil Hosmer and Bram Wasti and Liangzhen Lai and Anas Mahmoud and Bilge Acun and Saurabh Agarwal and Ahmed Roman and Ahmed A Aly and Beidi Chen and Carole-Jean Wu } ,
    booktitle = " Proceedings of the 62nd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers) " ,
    month = aug,
    year = " 2024 " ,
    address = " Bangkok, Thailand " ,
    publisher = " Association for Computational Linguistics " ,
    url = " https://aclanthology.org/2024.acl-long.681 " ,
    doi = " 10.18653/v1/2024.acl-long.681 " ,
    pages = " 12622--12642 " ,
}