ดาวน์โหลด SmallLanguageModel - ดาวน์โหลด SmallLanguageModel ซอร์สโค้ด

SmallLanguageModel

ซอร์สโค้ดอื่น ๆ

1.0.0

ดาวน์โหลด

SmallLanguageรุ่น

พื้นที่เก็บข้อมูลนี้มีรายการที่จำเป็นทั้งหมดที่จำเป็นในการสร้าง LLM ของคุณเองตั้งแต่เริ่มต้น เพียงทำตามคำแนะนำ แรงบันดาลใจจากเครื่องกำเนิด nanoGPT และ Shakespeare ของ Karpathy ฉันสร้างพื้นที่เก็บข้อมูลนี้เพื่อสร้าง LLM ของตัวเอง มีทุกอย่างตั้งแต่การรวบรวมข้อมูลสำหรับไฟล์ Model ไปจนถึงไฟล์สถาปัตยกรรม tokenizer และไฟล์ train

โครงสร้างการซื้อคืน

Repo นี้ประกอบด้วย:

ตัวรวบรวมข้อมูล: Web-Scrapper มีไดเร็กทอรีในกรณีที่คุณต้องการรวบรวมข้อมูลตั้งแต่ต้นแทนที่จะดาวน์โหลด
การประมวลผลข้อมูล: ไดเร็กทอรีที่มีโค้ดสำหรับประมวลผลไฟล์บางประเภทล่วงหน้า เช่น การแปลงไฟล์ปาร์เก้เป็นไฟล์ .txt และ .csv และโค้ดต่อท้ายไฟล์
โมเดล: ประกอบด้วยโค้ดที่จำเป็นทั้งหมดเพื่อฝึกโมเดลของคุณเอง โมเดล BERT, โมเดล GPT และโมเดล Seq-2-Seq พร้อมด้วยโทเค็นไนเซอร์และเรียกใช้ไฟล์

ข้อกำหนดเบื้องต้น

ก่อนตั้งค่า SmallLanguageModel ตรวจสอบให้แน่ใจว่าคุณได้ติดตั้งข้อกำหนดเบื้องต้นต่อไปนี้:

Python 3.8 หรือสูงกว่า
pip (ตัวติดตั้งแพ็คเกจ Python)

วิธีใช้:

ทำตามขั้นตอนเหล่านี้เพื่อฝึกโทเค็นไนเซอร์ของคุณเองหรือสร้างเอาต์พุตจากโมเดลที่ได้รับการฝึก:

โคลนที่เก็บนี้:

git clone https://github.com/shivendrra/SmallLanguageModel-project
cd SLM-clone

ติดตั้งการพึ่งพา:
```
pip install requirements.txt
```
รถไฟ: อ่าน training.md สำหรับข้อมูลเพิ่มเติม ปฏิบัติตามมัน

ประวัติดารา

มีส่วนร่วม

ยินดีต้อนรับคำขอดึง สำหรับการเปลี่ยนแปลงที่สำคัญ โปรดเปิดประเด็นก่อนเพื่อหารือเกี่ยวกับสิ่งที่คุณต้องการเปลี่ยนแปลง โปรดตรวจสอบให้แน่ใจว่าได้อัปเดตการทดสอบตามความเหมาะสม