picoGPT
1.0.0
โพสต์ในบล็อกที่มาพร้อมกับ: GPT ใน 60 Lines of Numpy
คุณเคยเห็น openai/gpt-2 แล้ว
คุณเคยเห็น karpathy/minGPT แล้ว
คุณเคยเห็น karpathy/nanoGPT ด้วยซ้ำ!
แต่เคยเห็น picoGPT มั้ย??!?
picoGPT
เป็นการนำ GPT-2 ไปใช้เพียงเล็กน้อยโดยไม่จำเป็นใน NumPy รหัสผ่านไปข้างหน้าทั้งหมดคือรหัส 40 บรรทัด
คุณสมบัติ picoGPT:
gpt2.py
✅ gpt2_pico.py
รายละเอียดอย่างรวดเร็วของแต่ละไฟล์:
encoder.py
มีโค้ดสำหรับ BPE Tokenizer ของ OpenAI ซึ่งนำมาจาก repo gpt-2 โดยตรงutils.py
มีโค้ดสำหรับดาวน์โหลดและโหลดน้ำหนักโมเดล GPT-2, โทเค็นไนเซอร์ และไฮเปอร์พารามิเตอร์gpt2.py
มีโมเดล GPT และโค้ดการสร้างจริงซึ่งเราสามารถเรียกใช้เป็นสคริปต์ Python ได้gpt2_pico.py
เหมือนกับ gpt2.py
แต่มีโค้ดน้อยกว่าด้วยซ้ำ ทำไม เพราะเหตุใดจะไม่ได้??. pip install -r requirements.txt
ทดสอบบน Python 3.9.10
python gpt2.py " Alan Turing theorized that computers would one day become "
ซึ่งก่อให้เกิด
the most powerful machines on the planet.
The computer is a machine that can perform complex calculations, and it can perform these calculations in a way that is very similar to the human brain.
คุณยังสามารถควบคุมจำนวนโทเค็นที่จะสร้าง ขนาดโมเดล (หนึ่งใน ["124M", "355M", "774M", "1558M"]
) และไดเร็กทอรีที่จะบันทึกโมเดล:
python gpt2.py
" Alan Turing theorized that computers would one day become "
--n_tokens_to_generate 40
--model_size " 124M "
--models_dir " models "