مجموعة البيانات المستخدمة في هذه التجربة هي DpgMedia2019: مجموعة بيانات الأخبار الهولندية للكشف عن الحزبية.
يحتوي على أجزاء مختلفة ولكن الجزء الرئيسي الذي أستخدمه في هذا المستودع هو مجموعة فرعية من المقالات الإخبارية الأصلية البالغ عددها 104K. يوجد لكل مقالة تصنيف "حزبي" يوضح ما إذا كانت المقالة حزبية أم لا (صواب/خطأ). كمية المقالات الحزبية / غير الحزبية متوازنة تقريبًا.
تم إنشاء مجموعة البيانات من قبل المؤلفين بهدف المساهمة على سبيل المثال في إنشاء كاشف الأخبار الحزبية. في كود بايثون المستخدم في التجارب، يتم تنزيل ملفات مجموعة البيانات المحددة تلقائيًا.
راجع موقع github والورقة للحصول على مزيد من المعلومات حول مجموعة البيانات وكيفية إنشائها. انظر المراجع للحصول على المعلومات.
ملحوظة !! اعتبارًا من يناير 2023، لم تعد جميع الملفات متاحة في موقع جيثب الأصلي لمجموعة البيانات. إذا كنت بحاجة إلى الملفات الأصلية، فقم بتنزيلها من Kaggle Dataset.
تتوفر مجموعات التدريب والتحقق الفرعية المستخدمة في هذا المستودع في مجلد "البيانات".
في دفتر الملاحظات "Prepare_Train_and_Validation_Datasets.ipynb"، سيتم تقسيم مجموعة البيانات الكاملة إلى مجموعات فرعية أصغر يتم استخدامها للتدريب والتحقق من الصحة.
تتوفر هذه الملفات في مجلد "البيانات" الموجود في هذا المستودع.
الأسباب الرئيسية لإنشاء مجموعات فرعية أصغر من البيانات هي أن نموذج GPT (أو نماذج LLM أخرى) يحتاج فقط إلى بضعة آلاف من العينات لإجراء الضبط الدقيق عليها. تعني مجموعات البيانات الأصغر أيضًا عددًا أقل من الرموز المميزة وفاتورة أصغر لبطاقتك الائتمانية؛-)
تحتوي المجموعات الفرعية الأصغر على كميات العينات التالية:
تم تدريب نماذج المحولات العادية التالية والتحقق من صحتها في دفتر الملاحظات "Transformer_Model_Training_And_Validation.ipynb" في مجموعات فرعية صغيرة من بيانات التدريب والتحقق من الصحة:
نماذج PolyLM 1.7B وOpenLLaMA 7B V2 Open LLM حيث تم تدريب كلاهما مسبقًا على مجموعات بيانات متعددة اللغات والتي تحتوي أيضًا على اللغة الهولندية.
في دفتر الملاحظات "Open_LLM_Training_And_Validation.ipynb" يتم تحديد كمية نماذج Open LLM إلى 4 بت وضبطها بدقة باستخدام إعداد QLoRA لتقليل أثر ذاكرة وحدة معالجة الرسومات.
تم تعيين LoraConfig برتبة 64 وألفا 16.
بعد التدريب، حقق نموذج PolyLM 1.7B دقة في مجموعة التحقق بنسبة 84.4% بينما حقق نموذج OpenLLaMA 7B V2 نسبة 89.5%.
قمت بإجراء دورات تدريبية متعددة وفي مناسبات مختلفة سجل كلا النموذجين ما يصل إلى 0.5% أعلى أو أقل مقارنة بالقيمة المذكورة أعلاه.
يمكن العثور على رمز الضبط الدقيق لـ GPT-3.5 في دفتر الملاحظات "Finetune_GPT-3.5.ipynb". بناءً على التدريب والتحقق من صحة ملفات CSV، يتم إنشاء ملفات محددة وتحميلها إلى OpenAI والتي يتم استخدامها لتحسين نموذج GPT-3.5. يتم تضمين المقالات الإخبارية في موجه محدد تم تصميمه للتصنيف الذي نود أن يتعلمه النموذج من خلال الضبط الدقيق.
رمز التحقق متاح في دفتر الملاحظات "Validate_GPT-3.5.ipynb". لكل سجل في مجموعة التحقق من الصحة، يتم تضمين نص المقالة الإخبارية في الموجه ويتم استدعاء OpenAI من خلال واجهة برمجة التطبيقات للحصول على الاستجابة من إكمال الدردشة. يتم تحويل الاستجابة إلى تسمية ثنائية وباستخدام تسميات الحقيقة الأساسية يتم إنشاء تقرير التصنيف النهائي.
يحقق نموذج OpenAI GPT-3.5 المضبوط بدقة دقة في مجموعة التحقق بنسبة 89.4%.
لاحظ أنني استخدمت OpenAI للضبط الدقيق والتحقق من الصحة وليس Azure OpenAI.
في الإصدار الأخير (5 ديسمبر 2023) من هذا الكمبيوتر المحمول، قمت بإجراء التحديثات التالية:
يمكنك العثور أدناه على درجات الدقة التي تم تحقيقها في مجموعة التحقق من صحة نماذج المحولات الثلاثة ونموذج GPT-3.5.
يحقق نموذج GPT-3.5 درجة دقة عالية بعد الضبط الدقيق.
أداء نماذج المحولات الثلاثة متخلف قليلاً. ومن الواضح أنهم سيستفيدون من التدريب على المزيد من عينات البيانات.
يحقق Open LLM PolyLM أدنى درجة. ومع ذلك، حقق نموذج OpenLLaMA 7B V2 درجة رائعة تبلغ 89.5% وهي مماثلة للنتائج التي حققتها نماذج GPT-3.5 Turbo المضبوطة (0613 و1106).
(ماجستير في القانون) نوع النموذج | دقة التحقق من الصحة (٪) النتيجة |
---|---|
PolyLM 1.7B (لورا: ص = 64) | 84.4 |
متعدد اللغات DistilBert | 85.6 |
بيرت متعدد اللغات | 86.3 |
متعدد اللغات DeBERTa V3 | 85.8 |
OpenLLaMA 7B V2 (لورا: r = 64) | 89.5 |
GPT-3.5 Turbo 0613 (ضبط دقيق) | 90.8 |
GPT-3.5 توربو 1106 (ضبط دقيق) | 89.4 |
GPT-3.5 Turbo 1106 (التعلم في السياق) | 56.0 |
!! DeBERTa V3 متعدد اللغات (مجموعة بيانات كاملة) | 95.2 |
@misc{1908.02322,
Author = {Chia-Lun Yeh and Babak Loni and Mariëlle Hendriks and Henrike Reinhardt and Anne Schuth},
Title = {DpgMedia2019: A Dutch News Dataset for Partisanship Detection},
Year = {2019},
Eprint = {arXiv:1908.02322},
}