Un repositorio para ejecutar GPT-J-6B en sistemas con poca vram utilizando ram, vram y memoria fija.
Uso: pip install git+https://github.com/finetuneanon/transformers@gpt-neo-localattention3
Utilice el enlace: https://drive.google.com/file/d/1tboTvohQifN6f1JiSV8hnciyNKvj9pvm/view?usp=sharing para descargar el modelo que se ha guardado como se describe aquí: https://github.com/arrmansa/served-and -cargando-modelos-grandes-pytorch
16 gb de ram ddr4. GPU 1070 de 8gb.
23 bloques en RAM (ram_blocks = 23), de los cuales 18 están en memoria compartida/fijada (max_shared_ram_blocks = 18).
Una sola ejecución del modelo (entradas) tarda 6,5 segundos.
35 segundos para generar 25 tokens en un contexto de 2000. (1,4 segundos/ficha)
16 gb de ram ddr4. GPU 1060 de 6gb.
26 bloques en RAM (ram_blocks = 26), de los cuales 18 están en memoria compartida/fijada (max_shared_ram_blocks = 18).
40 segundos para generar 25 tokens en un contexto de 2000. (1,6 segundos/ficha)