Repositori untuk menjalankan GPT-J-6B pada sistem vram rendah dengan menggunakan ram, vram, dan memori yang disematkan.
Gunakan - pip install git+https://github.com/finetuneanon/transformers@gpt-neo-localattention3
Gunakan tautan - https://drive.google.com/file/d/1tboTvohQifN6f1JiSV8hnciyNKvj9pvm/view?usp=sharing untuk mengunduh model yang telah disimpan seperti yang dijelaskan di sini - https://github.com/arrmansa/ saving-and -memuat-model-besar-pytorch
Ram 16gb ddr4. GPU 1070 8gb.
23 blok pada ram (ram_blocks = 23) dimana 18 di antaranya berada pada memori bersama/disematkan (max_shared_ram_blocks = 18).
satu kali menjalankan model (input) membutuhkan waktu 6,5 detik.
35 detik untuk menghasilkan 25 token pada konteks tahun 2000. (1,4 detik/tanda)
Ram 16gb ddr4. GPU 1060 6gb.
26 blok pada ram (ram_blocks = 26) dimana 18 di antaranya berada pada memori bersama/disematkan (max_shared_ram_blocks = 18).
40 detik untuk menghasilkan 25 token pada konteks tahun 2000. (1,6 detik/tanda)