Um repositório para executar GPT-J-6B em sistemas com baixo vram usando RAM, vram e memória fixada.
Use - pip install git+https://github.com/finetuneanon/transformers@gpt-neo-localattention3
Use o link - https://drive.google.com/file/d/1tboTvohQifN6f1JiSV8hnciyNKvj9pvm/view?usp=sharing para baixar o modelo que foi salvo conforme descrito aqui - https://github.com/arrmansa/ saving-and -carregando modelos grandes-pytorch
16GB de RAM DDR4. GPU 1070 8GB.
23 blocos na memória RAM (ram_blocks = 23), dos quais 18 estão na memória compartilhada/fixada (max_shared_ram_blocks = 18).
a única execução do modelo (entradas) leva 6,5 segundos.
35 segundos para gerar 25 tokens no contexto 2.000. (1,4 segundos/token)
16GB de RAM DDR4. GPU 1060 6GB.
26 blocos na memória RAM (ram_blocks = 26), dos quais 18 estão na memória compartilhada/fixada (max_shared_ram_blocks = 18).
40 segundos para gerar 25 tokens no contexto 2.000. (1,6 segundos/token)