พื้นที่เก็บข้อมูลนี้อำนวยความสะดวกในการฝึกอบรมโมเดลภาษาระดับอักขระหรือระดับคำตามข้อความแชท WhatsApp เท่านั้น หลังจากการฝึกโมเดลแล้ว คุณสามารถเริ่มต้นการสนทนาสังเคราะห์กับกลุ่มแชท Whatsapp ที่ได้รับการฝึกอบรมได้
assets/input/chat.txt
เป็นเพียงตัวยึดตำแหน่งที่จะถูกแทนที่ด้วยคลังข้อความแชทจริง |-- assets
| |-- input
| | |-- chat.txt
| |-- output
| | |-- contacts.txt
| | |-- vocab.txt
| | |-- train.pt
| | |-- valid.pt
| |-- models
| | |--model.pt
|-- src
| |-- chat.py
| |-- model.py
| |-- preprocess.py
| |-- train.py
| |-- utils.py
|-- config.py
|-- run.py
assets/input/chat.txt:
ไฟล์อินพุตจะต้องเป็นการแชท WhatsApp ที่ส่งออก (ไม่มีสื่อ)assets/output/:
ข้อมูลการฝึกอบรม/การตรวจสอบที่เข้ารหัสและแบบจำลองที่ได้รับการฝึกอบรมจะถูกเขียนลงในตำแหน่งนี้assets/models/model.pt:
วัตถุโมเดล pytorch ที่ได้รับการฝึกอบรมsrc/preprocess.py:
แปลงข้อความแชทเป็นเทนเซอร์ PyTorch ที่เข้ารหัส ข้อมูลจะถูกแบ่งออกเป็นชุดการฝึกอบรมและการตรวจสอบความถูกต้องsrc/model.py:
กำหนดคลาสโมเดลภาษาsrc/train.py:
มีโค้ดสำหรับฝึกโมเดลภาษาsrc/chat.py:
มีฟังก์ชันสำหรับการโต้ตอบการสนทนากับโมเดลsrc/utils.py:
ฟังก์ชั่นยูทิลิตี้ที่มีประโยชน์อื่น ๆrun.py:
สคริปต์หลักที่มีตัวแยกวิเคราะห์อาร์กิวเมนต์เพื่อเรียกการกระทำอย่างใดอย่างหนึ่งจากสามการกระทำ ("ประมวลผลล่วงหน้า", "ฝึก", "แชท")config.py:
พารามิเตอร์สำหรับการประมวลผลล่วงหน้าและการฝึกโมเดลจะถูกบันทึก git clone https://github.com/bernhard-pfann/lad-gpt.git
cd lad-gpt
pip install -r requirements.txt
หากต้องการใช้โปรเจ็กต์นี้อย่างเต็มที่ คุณจะต้องมีไฟล์ .txt ที่มีข้อความจากการแชท WhatsApp ต่อไปนี้เป็นขั้นตอนในการส่งออกแชทกลุ่ม WhatsApp ของคุณเป็นไฟล์ .txt:
เมื่อคุณมีไฟล์ .txt แล้ว ให้วางไว้ในไดเร็กทอรี assets/input
ที่เรียกว่า chat.txt
ถ้าอย่างนั้นคุณก็พร้อมที่จะไป!
เมื่อป้อนข้อมูลแล้ว การแชทจะต้องถูกเข้ารหัสเป็นเทนเซอร์ตัวเลข ข้อมูลที่เข้ารหัสยังแบ่งออกเป็นชุดการฝึกอบรมและการตรวจสอบ:
python run.py preprocess
เพื่อฝึกโมเดลภาษาตั้งแต่เริ่มต้นและอิงตามข้อมูลแชทที่เข้ารหัสเท่านั้น Set --update
ในกรณีที่คุณต้องการฝึกฝนโมเดลที่มีอยู่แล้วต่อไป
python run.py train --update
ในการเริ่มต้นการสนทนากับโมเดลที่ได้รับการฝึก:
python run.py chat