Ein Repository zum Ausführen von GPT-J-6B auf Systemen mit geringem VRAM unter Verwendung von RAM, VRAM und angeheftetem Speicher.
Verwenden Sie - pip install git+https://github.com/finetuneanon/transformers@gpt-neo-localattention3
Verwenden Sie den Link – https://drive.google.com/file/d/1tboTvohQifN6f1JiSV8hnciyNKvj9pvm/view?usp=sharing, um das Modell herunterzuladen, das wie hier beschrieben gespeichert wurde – https://github.com/arrmansa/ saving-and -loading-large-models-pytorch
16 GB DDR4-RAM. 1070 8 GB GPU.
23 Blöcke im RAM (ram_blocks = 23), davon 18 im gemeinsam genutzten/festgelegten Speicher (max_shared_ram_blocks = 18).
Ein einzelner Durchlauf des Modells (Eingaben) dauert 6,5 Sekunden.
35 Sekunden, um 25 Token im 2000-Kontext zu generieren. (1,4 Sekunden/Token)
16 GB DDR4-RAM. 1060 6 GB GPU.
26 Blöcke im RAM (ram_blocks = 26), davon 18 im gemeinsam genutzten/festgelegten Speicher (max_shared_ram_blocks = 18).
40 Sekunden, um 25 Token im 2000-Kontext zu generieren. (1,6 Sekunden/Token)