Basic UI for GPT J 6B with low vram
1.0.0
RAM、VRAM、固定メモリの両方を使用して、低 VRAM システムで GPT-J-6B を実行するためのリポジトリ。
使用 - pip install git+https://github.com/finetuneanon/transformers@gpt-neo-localattention3
リンク - https://drive.google.com/file/d/1tboTvohQifN6f1JiSV8hnciyNKvj9pvm/view?usp=sharing を使用して、ここで説明されているように保存されたモデルをダウンロードします - https://github.com/arrmansa/ Saving-and -loading-large-models-pytorch
16GB ddr4 RAM。 1070 8GB GPU。
RAM 上に 23 ブロック (ram_blocks = 23)、そのうち 18 ブロックは共有/固定メモリ上にあります (max_shared_ram_blocks = 18)。
モデル (入力) の 1 回の実行には 6.5 秒かかります。
2000 コンテキストで 25 個のトークンを生成するには 35 秒かかります。 (1.4秒/トークン)
16GB ddr4 RAM。 1060 6GB GPU。
RAM 上に 26 ブロック (ram_blocks = 26)、そのうち 18 ブロックは共有/固定メモリ上にあります (max_shared_ram_blocks = 18)。
2000 コンテキストで 25 個のトークンを生成するのに 40 秒。 (1.6秒/トークン)