تنزيل ConfliBERT - تنزيل كود مصدر ConfliBERT

ConfliBERT

كود الذكاء الاصطناعي

1.0.0

تنزيل

ConfliBERT : نموذج لغوي مُدرب مسبقًا للتعامل مع الصراع السياسي والعنف (NAACL 2022)

يحتوي هذا المستودع على الكود الأساسي للمقالة ConfliBERT : نموذج لغة مدرب مسبقًا للصراع السياسي والعنف (NAACL 2022).

المتطلبات الأساسية

تتم كتابة الكود بواسطة Python 3.6 في نظام Linux. إصدار الكودا هو 10.2. الحزم الضرورية تشمل:

 torch==1.7.1 
transformers==4.17.0 
numpy==1.19.2 
scikit-learn==0.24.2
pandas==1.5.3
simpletransformers

نقاط تفتيش ConfliBERT

قدمنا أربعة إصدارات من ConfliBERT :

ConfliBERT -scr-uncased: التدريب المسبق من الصفر باستخدام مفرداتنا غير المغطاة (المفضل)
ConfliBERT -scr-cased: التدريب المسبق من الصفر باستخدام مفرداتنا الخاصة
ConfliBERT -cont-uncased: التدريب المسبق المستمر باستخدام مفردات BERT الأصلية غير المغطاة
ConfliBERT -cont-cased: التدريب المسبق المستمر باستخدام مفردات BERT الأصلية

يمكنك استيراد النماذج الأربعة المذكورة أعلاه مباشرة عبر Huggingface API:

ConfliBERT-scr-uncased", use_auth_token=True) model = AutoModelForMaskedLM.from_pretrained("snowood1/ ConfliBERT -scr-uncased", use_auth_token=True)">

 from transformers import AutoTokenizer, AutoModelForMaskedLM
tokenizer = AutoTokenizer.from_pretrained("snowood1/ ConfliBERT -scr-uncased", use_auth_token=True)
model = AutoModelForMaskedLM.from_pretrained("snowood1/ ConfliBERT -scr-uncased", use_auth_token=True)

تقييم

استخدام ConfliBERT هو نفس استخدام نماذج BERT الأخرى في Huggingface.

لقد قدمنا أمثلة متعددة باستخدام المحولات البسيطة. يمكنك تشغيل:

 CUDA_VISIBLE_DEVICES=0 python finetune_data.py --dataset IndiaPoliceEvents_sents --report_per_epoch

انقر فوق عرض Colab التجريبي لرؤية مثال للتقييم:

مجموعات بيانات التقييم

فيما يلي ملخص لمجموعات البيانات المتاحة للجمهور:

مجموعة البيانات	روابط
20 مجموعة أخبار	https://www.kaggle.com/crawford/20-newsgroups
بي بي سي نيوز	https://www.kaggle.com/c/learn-ai-bbc/overview
EventStatusCorpus	https://catalog.ldc.upenn.edu/LDC2017T09
نزاع عالمي	https://github.com/emerging-welfare/glocongold/tree/master/sample
قاعدة بيانات الإرهاب العالمية	https://www.start.umd.edu/gtd/
قاعدة بيانات العنف المسلح	http://gun-violence.org/download/
أحداث شرطة الهند	https://github.com/slanglab/IndiaPoliceEvents
انسايتكريم	https://figshare.com/s/73f02ab8423bb83048aa
موك-4	https://github.com/xinyadu/grit_doc_event_entity/tree/master/data/muc
re3d	https://github.com/juand-r/entity-recognition-datasets/tree/master/data/re3d
SATP	https://github.com/javierosorio/SATP
حجاب	https://dl.acm.org/doi/abs/10.1145/3514094.3534178

لاستخدام مجموعات البيانات الخاصة بك، تتمثل الخطوة الأولى في معالجة مجموعات البيانات مسبقًا إلى التنسيقات المطلوبة بتنسيق ./data. على سبيل المثال،

IndiaPoliceEvents_sents لمهام التصنيف. التنسيق عبارة عن جملة + تسميات مفصولة بعلامات جدولة.
re3d لمهام NER بتنسيق CONLL

الخطوة الثانية هي إنشاء ملفات التكوين المقابلة في ./configs مع المهام الصحيحة من ["binary"، "multiclass"، "multilabel"، "ner"].

مجموعة التدريب المسبق

لقد جمعنا مجموعة كبيرة من المواضيع في مجال السياسة والصراعات (33 جيجابايت) للتدريب المسبق على ConfliBERT . يحتوي المجلد ./pretrain-corpora/Crawlers and Processes على نماذج البرامج النصية المستخدمة لإنشاء المجموعة المستخدمة في هذه الدراسة. نظرًا لحقوق الطبع والنشر، فإننا نقدم بعض العينات بتنسيق ./pretrain-corpora/Samples. تتبع هذه العينات تنسيق "جملة واحدة لكل تنسيق سطر". اطلع على مزيد من التفاصيل حول مجموعة التدريب المسبق في القسم 2 والملحق من ورقتنا.

البرامج النصية للتدريب المسبق

لقد اتبعنا نفس البرامج النصية للتدريب المسبق run_mlm.py من Huggingface (الرابط الأصلي). يوجد أدناه مثال باستخدام 8 وحدات معالجة رسوميات. لقد قدمنا المعلمات لدينا في الملحق. ومع ذلك، يجب عليك تغيير المعلمات وفقًا لأجهزتك الخاصة:

	export NGPU=8; nohup python -m torch.distributed.launch --master_port 12345 
	--nproc_per_node=$NGPU run_mlm.py 
	--model_type bert 
	--config_name ./bert_base_cased 
	--tokenizer_name ./bert_base_cased 
	--output_dir ./bert_base_cased 
	--cache_dir ./cache_cased_128 
	--use_fast_tokenizer 
	--overwrite_output_dir 
	--train_file YOUR_TRAIN_FILE 
	--validation_file YOUR_VALID_FILE 
	--max_seq_length 128 
	--preprocessing_num_workers 4 
	--dataloader_num_workers 2 
	--do_train --do_eval 
	--learning_rate 5e-4 
	--warmup_steps=10000 
	--save_steps 1000 
	--evaluation_strategy steps 
	--eval_steps 10000 
	--prediction_loss_only  
	--save_total_limit 3 
	--per_device_train_batch_size 64 --per_device_eval_batch_size 64 
	--gradient_accumulation_steps 4 
	--logging_steps=100 
	--max_steps 100000 
	--adam_beta1 0.9 --adam_beta2 0.98 --adam_epsilon 1e-6 
	--fp16 True --weight_decay=0.01

الاقتباس

إذا وجدت هذا الريبو مفيدًا في بحثك، فيرجى مراعاة الاستشهاد بما يلي:

ConfliBERT, title={ ConfliBERT : A Pre-trained Language Model for Political Conflict and Violence}, author={Hu, Yibo and Hosseini, MohammadSaleh and Parolin, Erick Skorupa and Osorio, Javier and Khan, Latifur and Brandt, Patrick and D’Orazio, Vito}, booktitle={Proceedings of the 2022 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies}, pages={5469--5482}, year={2022} }">

 @inproceedings{hu2022 ConfliBERT ,
  title={ ConfliBERT : A Pre-trained Language Model for Political Conflict and Violence},
  author={Hu, Yibo and Hosseini, MohammadSaleh and Parolin, Erick Skorupa and Osorio, Javier and Khan, Latifur and Brandt, Patrick and D’Orazio, Vito},
  booktitle={Proceedings of the 2022 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies},
  pages={5469--5482},
  year={2022}
}

يوسع

معلومات إضافية

الإصدار 1.0.0
النوع كود الذكاء الاصطناعي
وقت التحديث 2024-12-30
الحجم 50MB
من Github

تطبيقات ذات صلة

node telegram bot api

2024-12-14
typebot.io

2024-12-14
python wechaty getting started

2024-12-14
TranscriberBot

2024-12-14
genal chat

2024-12-14
Facemoji

2024-12-14

نوصي لك

chat.petals.dev

شفرة المصدر الأخرى

1.0.0
GPT Prompt Templates

شفرة المصدر الأخرى

1.0.0
GPTyped

شفرة المصدر الأخرى

GPTyped 1.0.5
node telegram bot api

كود الذكاء الاصطناعي

v0.50.0
typebot.io

كود الذكاء الاصطناعي

v3.1.2
python wechaty getting started

كود الذكاء الاصطناعي

1.0.0
waymo open dataset

شفرة المصدر الأخرى

December 2023 Update
termwind

فئات أخرى

v2.3.0
wp functions

فئات أخرى

1.0.0

أخبار ذات صلة الكل