airllmダウンロード - airllmソースコードのダウンロード

airllm

その他のソースコード

1.0.0

ダウンロード

airllm_ロゴ

クイックスタート|構成|マックOS |ノートブックの例|よくある質問

AirLLM は推論メモリの使用量を最適化し、量子化、蒸留、枝刈りを行わずに 70B の大規模言語モデルを 1 枚の 4GB GPU カードで推論を実行できるようにします。そして、 8GB vramで405B Llama3.1 を実行できるようになりました。

アップデート

[2024/08/20] v2.11.0: Qwen2.5をサポート

[2024/08/18] v2.10.1 CPU推論をサポートしました。非シャードモデルをサポートします。 @NavodPeiris の素晴らしい仕事に感謝します!

[2024/07/30] Llama3.1 405B (サンプルノート) をサポートしました。 8ビット/4ビット量子化をサポートします。

[2024/04/20] AirLLM は既に Llama3 をネイティブでサポートしています。 Llama3 70B を 4GB シングル GPU で実行します。

[2023/12/25] v2.8.2: 70B の大きな言語モデルを実行する MacOS をサポート。

[2023/12/20] v2.7: AirLLMMixtral に対応しました。

[2023/12/20] v2.6: AutoModel を追加しました。モデルタイプを自動的に検出し、モデルを初期化するためのモデルクラスを提供する必要はありません。

[2023/12/18] v2.5: モデルの読み込みと計算をオーバーラップするためのプリフェッチを追加しました。 10% の速度向上。

[2023/12/03] ChatGLM 、 QWen 、 Baichuan 、 Mistral 、 InternLMのサポートを追加しました!

[2023/12/02] セーフテンサーのサポートを追加しました。オープン LLM リーダーボードのトップ 10 モデルをすべてサポートするようになりました。

[2023/12/01] airllm 2.0。圧縮をサポート:実行時間が 3 倍スピードアップ!

[2023/11/20] airllm 初期バージョン！

スターの歴史

クイックスタート

1. パッケージをインストールする

まず、airllm pip パッケージをインストールします。

pip install airllm

2. 推論

次に、AirLLMLlama2 を初期化し、使用されているモデルのハグフェイスリポジトリ ID またはローカルパスを渡すと、通常のトランスフォーマーモデルと同様に推論を実行できます。

( AirLLMLlama2 の初期化時に、 layer_shards_ Saving_pathを通じて分割されたレイヤーモデルを保存するパスを指定することもできます。

 from airllm import AutoModel

MAX_LENGTH = 128
# could use hugging face model repo id:
model = AutoModel . from_pretrained ( "garage-bAInd/Platypus2-70B-instruct" )

# or use model's local path...
#model = AutoModel.from_pretrained("/home/ubuntu/.cache/huggingface/hub/models--garage-bAInd--Platypus2-70B-instruct/snapshots/b585e74bcaae02e52665d9ac6d23f4d0dbc81a0f")

input_text = [
        'What is the capital of United States?' ,
        #'I like',
    ]

input_tokens = model . tokenizer ( input_text ,
    return_tensors = "pt" , 
    return_attention_mask = False , 
    truncation = True , 
    max_length = MAX_LENGTH , 
    padding = False )
           
generation_output = model . generate (
    input_tokens [ 'input_ids' ]. cuda (), 
    max_new_tokens = 20 ,
    use_cache = True ,
    return_dict_in_generate = True )

output = model . tokenizer . decode ( generation_output . sequences [ 0 ])

print ( output )

注: 推論中、最初に元のモデルが分解され、レイヤーごとに保存されます。ハグフェイスキャッシュディレクトリに十分なディスク容量があることを確認してください。

モデル圧縮 - 推論速度が 3 倍向上!

ブロック単位の量子化ベースのモデル圧縮に基づいたモデル圧縮を追加しました。これにより、ほぼ無視できる精度の損失で、推論速度がさらに最大3 倍高速化されます。 (パフォーマンス評価の詳細と、このペーパーでブロック単位の量子化を使用する理由を参照してください)

スピード改善

モデル圧縮の高速化を有効にする方法:

ステップ 1. pip install -U bitsandbytesによって bitsandbytes がインストールされていることを確認します。
ステップ 2. airllm バージョンが 2.0.0 以降であることを確認します: pip install -U airllm
ステップ 3. モデルを初期化するときに、引数圧縮 (「4 ビット」または「8 ビット」) を渡します。

 model = AutoModel . from_pretrained ( "garage-bAInd/Platypus2-70B-instruct" ,
                     compression = '4bit' # specify '8bit' for 8-bit block-wise quantization 
                    )

モデルの圧縮と量子化の違いは何ですか?

量子化では通常、処理を本当に高速化するために重みとアクティベーションの両方を量子化する必要があります。そのため、精度を維持し、あらゆる種類の入力における外れ値の影響を回避することが困難になります。

この場合、ボトルネックは主にディスクの読み込みにありますが、必要なのはモデルの読み込みサイズを小さくすることだけです。したがって、重みの部分のみを量子化できるため、精度を確保することが容易になります。

構成

モデルを初期化するとき、次の構成がサポートされます。

圧縮: サポートされているオプション: 4 ビットまたは 8 ビットのブロック単位量子化の場合は 4 ビット、8 ビット、圧縮なしの場合はデフォルトの None
profiling_mode : サポートされているオプション: 消費時間を出力する場合は True、またはデフォルトでは False
layer_shards_ Saving_path : 分割モデルを保存するための別のパス (オプション)
hf_token : metal-llama/Llama-2-7b-hfのようなゲートモデルをダウンロードする場合、huggingface トークンをここで提供できます。
prefetching : モデルの読み込みと計算をオーバーラップするためのプリフェッチ。デフォルトではオンになっています。今のところ、これをサポートしているのは AirLLMLlama2 だけです。
delete_original : ディスク容量があまりない場合は、delete_original を true に設定して、ダウンロードしたオリジナルの抱き顔モデルを削除し、変換されたモデルのみを保持して、ディスク容量の半分を節約できます。

MacOS

airllm をインストールし、Linux の場合と同じようにコードを実行するだけです。詳細については、「クイックスタート」を参照してください。

mlx と torch がインストールされていることを確認してください
おそらく Python ネイティブをインストールする必要があります。詳しくはこちらをご覧ください
Appleシリコンのみがサポートされています

例 [Python ノートブック] (https://github.com/lyogavin/airllm/blob/main/air_llm/examples/run_on_macos.ipynb)

Python ノートブックの例

colab の例は次のとおりです。

他のモデルの例 (ChatGLM、QWen、Baichuan、Mistral など):

チャットGLM:

 from airllm import AutoModel
MAX_LENGTH = 128
model = AutoModel . from_pretrained ( "THUDM/chatglm3-6b-base" )
input_text = [ 'What is the capital of China?' ,]
input_tokens = model . tokenizer ( input_text ,
    return_tensors = "pt" , 
    return_attention_mask = False , 
    truncation = True , 
    max_length = MAX_LENGTH , 
    padding = True )
generation_output = model . generate (
    input_tokens [ 'input_ids' ]. cuda (), 
    max_new_tokens = 5 ,
    use_cache = True ,
    return_dict_in_generate = True )
model . tokenizer . decode ( generation_output . sequences [ 0 ])

Qウェン:

 from airllm import AutoModel
MAX_LENGTH = 128
model = AutoModel . from_pretrained ( "Qwen/Qwen-7B" )
input_text = [ 'What is the capital of China?' ,]
input_tokens = model . tokenizer ( input_text ,
    return_tensors = "pt" , 
    return_attention_mask = False , 
    truncation = True , 
    max_length = MAX_LENGTH )
generation_output = model . generate (
    input_tokens [ 'input_ids' ]. cuda (), 
    max_new_tokens = 5 ,
    use_cache = True ,
    return_dict_in_generate = True )
model . tokenizer . decode ( generation_output . sequences [ 0 ])

Baichuan、InternLM、Mistral など:

 from airllm import AutoModel
MAX_LENGTH = 128
model = AutoModel . from_pretrained ( "baichuan-inc/Baichuan2-7B-Base" )
#model = AutoModel.from_pretrained("internlm/internlm-20b")
#model = AutoModel.from_pretrained("mistralai/Mistral-7B-Instruct-v0.1")
input_text = [ 'What is the capital of China?' ,]
input_tokens = model . tokenizer ( input_text ,
    return_tensors = "pt" , 
    return_attention_mask = False , 
    truncation = True , 
    max_length = MAX_LENGTH )
generation_output = model . generate (
    input_tokens [ 'input_ids' ]. cuda (), 
    max_new_tokens = 5 ,
    use_cache = True ,
    return_dict_in_generate = True )
model . tokenizer . decode ( generation_output . sequences [ 0 ])

他のモデルのサポートをリクエストするには: こちら

了承

コードの多くは、Kaggle 試験コンテストでの SimJeg の素晴らしい成果に基づいています。 SimJeg への大きなエール:

GitHub アカウント @SimJeg、Kaggle のコード、関連するディスカッション。

よくある質問

1.メタデータ不完全バッファ

safetensors_rust.SafetensorError: ヘッダーの逆シリアル化中にエラーが発生しました: MetadataIncompleteBuffer

このエラーが発生した場合、最も考えられる原因は、ディスク容量が不足していることです。モデルを分割するプロセスは非常にディスクを消費します。これを見てください。ディスク容量を拡張し、huggingface .cache をクリアして再実行する必要がある場合があります。

2. ValueError: max() arg は空のシーケンスです

おそらく、QWen または ChatGLM モデルを Llama2 クラスでロードしていると思われます。次のことを試してください。

QWen モデルの場合:

 from airllm import AutoModel #<----- instead of AirLLMLlama2
AutoModel . from_pretrained (...)

ChatGLM モデルの場合:

 from airllm import AutoModel #<----- instead of AirLLMLlama2
AutoModel . from_pretrained (...)

3. 401 クライアントエラー....リポジトリモデル ... はゲートされています。

一部のモデルはゲート付きモデルであり、huggingface API トークンが必要です。 hf_token を指定できます。

 model = AutoModel . from_pretrained ( "meta-llama/Llama-2-7b-hf" , #hf_token='HF_API_TOKEN')

4. ValueError: パディングを要求していますが、トークナイザーにはパディングトークンがありません。

一部のモデルのトークナイザーにはパディングトークンがないため、パディングトークンを設定するか、単にパディング構成をオフにすることができます。

 input_tokens = model . tokenizer ( input_text ,
   return_tensors = "pt" , 
   return_attention_mask = False , 
   truncation = True , 
   max_length = MAX_LENGTH , 
   padding = False  #<-----------   turn off padding 
)

AirLLM を引用

AirLLM が研究に役立つと感じ、引用したい場合は、次の BibTex エントリを使用してください。

 @software{airllm2023,
  author = {Gavin Li},
  title = {AirLLM: scaling large language models on low-end commodity computers},
  url = {https://github.com/lyogavin/airllm/},
  version = {0.0},
  year = {2023},
}

貢献

貢献、アイデア、ディスカッションを歓迎します。

役に立ったと思ったら、コーヒーをおごってください!

拡大する

追加情報

バージョン 1.0.0
タイプその他のソースコード
更新時間 2024-12-05
サイズ 1.94MB
から Github

airllm

アップデート

スターの歴史

目次

クイックスタート

1. パッケージをインストールする

2. 推論

モデル圧縮 - 推論速度が 3 倍向上!

モデル圧縮の高速化を有効にする方法:

モデルの圧縮と量子化の違いは何ですか?

構成

MacOS

Python ノートブックの例

他のモデルの例 (ChatGLM、QWen、Baichuan、Mistral など):

他のモデルのサポートをリクエストするには: こちら

了承

よくある質問

1.メタデータ不完全バッファ

2. ValueError: max() arg は空のシーケンスです

3. 401 クライアントエラー....リポジトリモデル ... はゲートされています。

4. ValueError: パディングを要求していますが、トークナイザーにはパディングトークンがありません。

AirLLM を引用

貢献

waymo open dataset

SmartTube

Sunamu

MySchedule.py

viptools for eslam

VITAident

chat.petals.dev

GPT Prompt Templates

GPTyped

waymo open dataset

SmartTube

Sunamu

waymo open dataset

wp functions

termwind

airllm

アップデート

スターの歴史

目次

クイックスタート

1. パッケージをインストールする

2. 推論

モデル圧縮 - 推論速度が 3 倍向上!

モデル圧縮の高速化を有効にする方法:

モデルの圧縮と量子化の違いは何ですか?

構成

MacOS

Python ノートブックの例

他のモデルの例 (ChatGLM、QWen、Baichuan、Mistral など):

他のモデルのサポートをリクエストするには: こちら

了承

よくある質問

1.メタデータ不完全バッファ

2. ValueError: max() arg は空のシーケンスです

3. 401 クライアント エラー....リポジトリ モデル ... はゲートされています。

4. ValueError: パディングを要求していますが、トークナイザーにはパディング トークンがありません。

AirLLM を引用

貢献

3. 401 クライアントエラー....リポジトリモデル ... はゲートされています。

4. ValueError: パディングを要求していますが、トークナイザーにはパディングトークンがありません。