พื้นที่เก็บข้อมูลนี้มีรายการที่จำเป็นทั้งหมดที่จำเป็นในการสร้าง LLM ของคุณเองตั้งแต่เริ่มต้น เพียงทำตามคำแนะนำ แรงบันดาลใจจากเครื่องกำเนิด nanoGPT และ Shakespeare ของ Karpathy ฉันสร้างพื้นที่เก็บข้อมูลนี้เพื่อสร้าง LLM ของตัวเอง มีทุกอย่างตั้งแต่การรวบรวมข้อมูลสำหรับไฟล์ Model ไปจนถึงไฟล์สถาปัตยกรรม tokenizer และไฟล์ train
Repo นี้ประกอบด้วย:
ก่อนตั้งค่า SmallLanguageModel ตรวจสอบให้แน่ใจว่าคุณได้ติดตั้งข้อกำหนดเบื้องต้นต่อไปนี้:
ทำตามขั้นตอนเหล่านี้เพื่อฝึกโทเค็นไนเซอร์ของคุณเองหรือสร้างเอาต์พุตจากโมเดลที่ได้รับการฝึก:
โคลนที่เก็บนี้:
git clone https://github.com/shivendrra/SmallLanguageModel-project
cd SLM-clone
ติดตั้งการพึ่งพา:
pip install requirements.txt
รถไฟ: อ่าน training.md สำหรับข้อมูลเพิ่มเติม ปฏิบัติตามมัน
ยินดีต้อนรับคำขอดึง สำหรับการเปลี่ยนแปลงที่สำคัญ โปรดเปิดประเด็นก่อนเพื่อหารือเกี่ยวกับสิ่งที่คุณต้องการเปลี่ยนแปลง โปรดตรวจสอบให้แน่ใจว่าได้อัปเดตการทดสอบตามความเหมาะสม
ใบอนุญาตเอ็มไอที ตรวจสอบ License.md สำหรับข้อมูลเพิ่มเติม