lad gpt تنزيل - lad gpt تنزيل كود المصدر

lad gpt

كود الذكاء الاصطناعي

October 2023 Release

تنزيل

تدريب نموذج اللغة على محادثات WhatsApp الخاصة بك

ملخص

يسهل هذا المستودع تدريب نموذج اللغة على مستوى الأحرف أو مستوى الكلمات بناءً على رسائل دردشة WhatsApp فقط. بعد التدريب النموذجي، يمكن للمرء بدء محادثة اصطناعية مع مجموعة دردشة Whatsapp المدربة.

رسائل الدردشة: لقد قمت بتدريب العارضة بشكل خاص على محادثات Whatsapp من مجموعة تضم أكثر من 8 أحرف Mio. إن assets/input/chat.txt هي مجرد عنصر نائب، ليتم استبداله بالمجموعة الفعلية لرسائل الدردشة.
نموذج اللغة: يتبع النموذج عن كثب البنية المقدمة في "الانتباه هو كل ما تحتاجه" (2017) بواسطة Vaswani et. آل.. كما أن تنفيذ pytorch للنموذج مستوحى بشكل كبير من فيديو تعليمي بواسطة Andrew Kaparty.
النتائج: في حين أن الأداء العام للنموذج الذي تم تدريبه بشكل خاص لا يمكن مقارنته بنماذج لغة السوتا، إلا أن النص الذي تم إنشاؤه يعرض بوضوح أنماطًا ومفردات لغوية يمكن التعرف عليها.

هيكل المجلد

 |-- assets
|   |-- input
|   |   |-- chat.txt
|   |-- output
|   |   |-- contacts.txt
|   |   |-- vocab.txt
|   |   |-- train.pt
|   |   |-- valid.pt
|   |-- models
|   |   |--model.pt
|-- src
|   |-- chat.py
|   |-- model.py
|   |-- preprocess.py
|   |-- train.py
|   |-- utils.py
|-- config.py
|-- run.py

وصف الأصول:

assets/input/chat.txt: يجب أن يكون ملف الإدخال عبارة عن دردشة WhatsApp مُصدَّرة (بدون وسائط).
assets/output/: سيتم كتابة بيانات التدريب/التحقق المشفرة والنموذج المُدرب في هذا الموقع.
assets/models/model.pt: كائن نموذج pytorch مُدرب.

وصف الوحدة:

src/preprocess.py: يحول رسائل الدردشة إلى موترات PyTorch مشفرة. يتم تقسيم البيانات إلى مجموعة التدريب والتحقق من الصحة.
src/model.py: يحدد فئة نموذج اللغة.
src/train.py: يحتوي على كود لتدريب نموذج اللغة.
src/chat.py: يحتوي على وظيفة التفاعل التحادثي مع النموذج.
src/utils.py: وظائف مفيدة أخرى.
run.py: البرنامج النصي الرئيسي مع محلل وسيطة لاستدعاء أي من الإجراءات الثلاثة ("المعالجة المسبقة"، "التدريب"، "الدردشة").
config.py: يتم تسجيل معلمات المعالجة المسبقة والتدريب النموذجي.

كيف تبدأ

تثبيت:

 git clone https://github.com/bernhard-pfann/lad-gpt.git
cd lad-gpt
pip install -r requirements.txt

للاستفادة من هذا المشروع بشكل كامل، ستحتاج إلى ملف .txt يحتوي على رسائل من دردشة WhatsApp. فيما يلي خطوات تصدير دردشة مجموعة WhatsApp إلى ملف بتنسيق txt:

لمستخدمي أندرويد:

افتح تطبيق WhatsApp وانتقل إلى الدردشة الجماعية: افتح تطبيق WhatsApp على جهاز Android الخاص بك وانتقل إلى الدردشة الجماعية التي ترغب في تصديرها.
اضغط على النقاط الثلاث: عادة ما تكون في الزاوية اليمنى العليا من نافذة الدردشة.
المزيد -> تصدير الدردشة: اختر "المزيد" من القائمة المنسدلة ثم حدد "تصدير الدردشة".
اختر بدون وسائط: ستحصل على خيار تضمين الوسائط أو استبعادها. اختر "بدون وسائط" لتصدير الرسائل النصية فقط.
حدد طريقة التصدير: سيُطلب منك تحديد الطريقة التي تريد بها تصدير الدردشة. يمكنك إرساله إلى بريدك الإلكتروني ومن هناك تنزيله كملف txt.

لمستخدمي آيفون:

افتح WhatsApp وانتقل إلى الدردشة الجماعية: افتح تطبيق WhatsApp على جهاز iPhone الخاص بك وانتقل إلى الدردشة الجماعية التي تريد تصديرها.
اضغط على اسم المجموعة: يوجد هذا في الجزء العلوي من نافذة الدردشة للانتقال إلى "معلومات المجموعة".
قم بالتمرير لأسفل وتصدير الدردشة: قم بالتمرير لأسفل وسترى خيار "تصدير الدردشة". اضغط عليها.
اختر بدون وسائط: ستظهر نافذة منبثقة تسألك عما إذا كنت تريد تضمين ملفات الوسائط. حدد "بدون وسائط".
حدد طريقة التصدير: حدد خيارًا لتصدير الدردشة، على سبيل المثال، عبر البريد. يمكنك بعد ذلك تنزيل الملف النصي من بريدك الإلكتروني.

بمجرد حصولك على ملف .txt، ضعه في دليل assets/input ، المسمى chat.txt . ثم أنت على استعداد للذهاب!