Un référentiel pour exécuter GPT-J-6B sur des systèmes à faible VRAM en utilisant à la fois la RAM, la VRAM et la mémoire épinglée.
Utiliser - pip install git+https://github.com/finetuneanon/transformers@gpt-neo-localattention3
Utilisez le lien - https://drive.google.com/file/d/1tboTvohQifN6f1JiSV8hnciyNKvj9pvm/view?usp=sharing pour télécharger le modèle qui a été enregistré comme décrit ici - https://github.com/arrmansa/ saving-and -chargement-grands-modèles-pytorch
16 Go de RAM DDR4. GPU 1070 8 Go.
23 blocs sur RAM (ram_blocks = 23) dont 18 sur mémoire partagée/épinglée (max_shared_ram_blocks = 18).
une seule exécution du modèle (entrées) prend 6,5 secondes.
35 secondes pour générer 25 jetons dans un contexte de 2000. (1,4 secondes/jeton)
16 Go de RAM DDR4. GPU 1060 6 Go.
26 blocs sur RAM (ram_blocks = 26) dont 18 sur mémoire partagée/épinglée (max_shared_ram_blocks = 18).
40 secondes pour générer 25 jetons dans un contexte de 2000. (1,6 secondes/jeton)