สถานะ: เก็บถาวร (มีโค้ดให้ตามที่เป็นอยู่ คาดว่าจะไม่มีการอัปเดต)
รหัสและแบบจำลองจากรายงาน "แบบจำลองภาษาเป็นผู้เรียนมัลติทาสก์ที่ไม่ได้รับการดูแล"
คุณสามารถอ่านเกี่ยวกับ GPT-2 และการเปิดตัวแบบทีละขั้นได้ในบล็อกโพสต์ต้นฉบับ โพสต์ติดตามผล 6 เดือน และโพสต์สุดท้าย
นอกจากนี้เรายังได้เผยแพร่ชุดข้อมูลเพื่อให้นักวิจัยได้ศึกษาพฤติกรรมของพวกเขาด้วย
* โปรดทราบว่าการนับพารามิเตอร์เดิมของเราผิดพลาดเนื่องจากข้อผิดพลาด (ในบล็อกโพสต์และรายงานฉบับก่อนๆ ของเรา) ดังนั้นคุณอาจเคยเห็นขนาดเล็กเรียกว่า 117M และขนาดกลางเรียกว่า 345M
พื้นที่เก็บข้อมูลนี้มีไว้เพื่อเป็นจุดเริ่มต้นสำหรับนักวิจัยและวิศวกรในการทดลองกับ GPT-2
สำหรับข้อมูลพื้นฐาน โปรดดูการ์ดโมเดลของเรา
โปรดแจ้งให้เราทราบหากคุณกำลังค้นคว้าข้อมูลที่น่าสนใจหรือกำลังพัฒนาแอปพลิเคชันของ GPT-2 เราสนใจเป็นพิเศษในการรับฟังและอาจร่วมงานกับผู้ที่กำลังศึกษาอยู่
ดูนักพัฒนา.md
ดูผู้สนับสนุน.md
กรุณาใช้รายการ bibtex ต่อไปนี้:
@article{radford2019language,
title={Language Models are Unsupervised Multitask Learners},
author={Radford, Alec and Wu, Jeff and Child, Rewon and Luan, David and Amodei, Dario and Sutskever, Ilya},
year={2019}
}
เราอาจปล่อยโค้ดสำหรับประเมินโมเดลตามการวัดประสิทธิภาพต่างๆ
เรายังคงพิจารณาการเปิดตัวรุ่นที่ใหญ่กว่านี้
เอ็มไอทีดัดแปลง