Basic UI for GPT J 6B with low vram
1.0.0
RAM, vram 및 고정 메모리를 모두 사용하여 낮은 vram 시스템에서 GPT-J-6B를 실행하는 저장소입니다.
사용 - pip install git+https://github.com/finetuneanon/transformers@gpt-neo-localattention3
여기에 설명된 대로 저장된 모델을 다운로드하려면 https://drive.google.com/file/d/1tboTvohQifN6f1JiSV8hnciyNKvj9pvm/view?usp=sharing 링크를 사용하세요. - https://github.com/arrmansa/saving-and -대형 모델 로딩-pytorch
16GB DDR4 램. 1070 8GB GPU입니다.
RAM의 블록 23개(ram_blocks = 23) 중 18개는 공유/고정 메모리(max_shared_ram_blocks = 18)에 있습니다.
모델(입력)의 단일 실행에는 6.5초가 소요됩니다.
2000 컨텍스트에서 25개의 토큰을 생성하는 데 35초. (1.4초/토큰)
16GB DDR4 램. 1060 6GB GPU.
RAM의 26개 블록(ram_blocks = 26) 중 18개는 공유/고정 메모리(max_shared_ram_blocks = 18)에 있습니다.
2000 컨텍스트에서 25개의 토큰을 생성하는 데 40초. (1.6초/토큰)