ConfliBERT Download – Download ConfliBERT Quellcodes

ConfliBERT

AI-Quellcode

1.0.0

Herunterladen

ConfliBERT : Ein vorab trainiertes Sprachmodell für politische Konflikte und Gewalt (NAACL 2022)

Dieses Repository enthält den wesentlichen Code für das Papier ConfliBERT : A Pre-trained Language Model for Political Conflict and Violence (NAACL 2022).

Voraussetzungen

Der Code wurde von Python 3.6 im Linux-System geschrieben. Die Cuda-Version ist 10.2. Zu den notwendigen Paketen gehören:

 torch==1.7.1 
transformers==4.17.0 
numpy==1.19.2 
scikit-learn==0.24.2
pandas==1.5.3
simpletransformers

ConfliBERT Kontrollpunkte

Wir haben vier Versionen von ConfliBERT bereitgestellt:

ConfliBERT -scr-uncased: Vortraining von Grund auf mit unserem eigenen Vokabular ohne Gehäuse (bevorzugt)
ConfliBERT -scr-cased: Vortraining von Grund auf mit unserem eigenen Vokabular in Hüllenform
ConfliBERT -cont-uncased: Kontinuierliches Vortraining mit dem unverpackten Vokabular des Original-BERT
ConfliBERT -cont-cased: Kontinuierliches Vortraining mit dem originalen BERT-Vokabular

Sie können die oben genannten vier Modelle direkt über die Huggingface-API importieren:

ConfliBERT-scr-uncased", use_auth_token=True) model = AutoModelForMaskedLM.from_pretrained("snowood1/ ConfliBERT -scr-uncased", use_auth_token=True)">

 from transformers import AutoTokenizer, AutoModelForMaskedLM
tokenizer = AutoTokenizer.from_pretrained("snowood1/ ConfliBERT -scr-uncased", use_auth_token=True)
model = AutoModelForMaskedLM.from_pretrained("snowood1/ ConfliBERT -scr-uncased", use_auth_token=True)

Auswertung

Die Verwendung von ConfliBERT ist die gleiche wie bei anderen BERT-Modellen in Huggingface.

Wir haben mehrere Beispiele für die Verwendung von Simple Transformers bereitgestellt. Sie können Folgendes ausführen:

 CUDA_VISIBLE_DEVICES=0 python finetune_data.py --dataset IndiaPoliceEvents_sents --report_per_epoch

Klicken Sie auf die Colab-Demo, um ein Beispiel für die Evaluierung zu sehen:

Evaluierungsdatensätze

Nachfolgend finden Sie die Zusammenfassung der öffentlich verfügbaren Datensätze:

Datensatz	Links
20Newsgruppen	https://www.kaggle.com/crawford/20-newsgroups
BBCnews	https://www.kaggle.com/c/learn-ai-bbc/overview
EventStatusCorpus	https://catalog.ldc.upenn.edu/LDC2017T09
GlobalContention	https://github.com/emerging-welfare/glocongold/tree/master/sample
GlobalTerrorismDatabase	https://www.start.umd.edu/gtd/
Datenbank zu Waffengewalt	http://gun-violence.org/download/
IndienPolizeiEvents	https://github.com/slanglab/IndiaPoliceEvents
InsightCrime	https://figshare.com/s/73f02ab8423bb83048aa
MUC-4	https://github.com/xinyadu/grit_doc_event_entity/tree/master/data/muc
re3d	https://github.com/juand-r/entity-recognition-datasets/tree/master/data/re3d
SATP	https://github.com/javierosorio/SATP
MINIATUR	https://dl.acm.org/doi/abs/10.1145/3514094.3534178

Um Ihre eigenen Datensätze zu verwenden, besteht der erste Schritt darin, die Datensätze in ./data in die erforderlichen Formate vorzuverarbeiten. Zum Beispiel,

IndiaPoliceEvents_sents für Klassifizierungsaufgaben. Das Format ist Satz + Beschriftungen, getrennt durch Tabulatoren.
re3d für NER-Aufgaben im CONLL-Format

Der 2. Schritt besteht darin, die entsprechenden Konfigurationsdateien in ./configs mit den richtigen Aufgaben aus [„binary“, „multiclass“, „multilabel“, „ner“] zu erstellen.

Korpus vorab trainieren

Wir haben einen großen Korpus im Bereich Politik und Konflikte (33 GB) für die Vorschulung ConfliBERT zusammengestellt. Der Ordner ./pretrain-corpora/Crawlers and Processes enthält die Beispielskripte, die zum Generieren des in dieser Studie verwendeten Korpus verwendet werden. Aufgrund des Urheberrechts stellen wir einige Beispiele unter ./pretrain-corpora/Samples zur Verfügung. Diese Beispiele folgen dem Format „ein Satz pro Zeile“. Weitere Einzelheiten zu Pre-Training-Korpora finden Sie in Abschnitt 2 und Anhang unseres Dokuments.

Vorschulungsskripte

Wir haben die gleichen Vortrainingsskripte run_mlm.py von Huggingface (Originallink) befolgt. Unten sehen Sie ein Beispiel mit 8 GPUs. Unsere Parameter haben wir im Anhang bereitgestellt. Allerdings sollten Sie die Parameter entsprechend Ihren eigenen Geräten ändern:

	export NGPU=8; nohup python -m torch.distributed.launch --master_port 12345 
	--nproc_per_node=$NGPU run_mlm.py 
	--model_type bert 
	--config_name ./bert_base_cased 
	--tokenizer_name ./bert_base_cased 
	--output_dir ./bert_base_cased 
	--cache_dir ./cache_cased_128 
	--use_fast_tokenizer 
	--overwrite_output_dir 
	--train_file YOUR_TRAIN_FILE 
	--validation_file YOUR_VALID_FILE 
	--max_seq_length 128 
	--preprocessing_num_workers 4 
	--dataloader_num_workers 2 
	--do_train --do_eval 
	--learning_rate 5e-4 
	--warmup_steps=10000 
	--save_steps 1000 
	--evaluation_strategy steps 
	--eval_steps 10000 
	--prediction_loss_only  
	--save_total_limit 3 
	--per_device_train_batch_size 64 --per_device_eval_batch_size 64 
	--gradient_accumulation_steps 4 
	--logging_steps=100 
	--max_steps 100000 
	--adam_beta1 0.9 --adam_beta2 0.98 --adam_epsilon 1e-6 
	--fp16 True --weight_decay=0.01

Zitat

Wenn Sie dieses Repo für Ihre Recherche nützlich finden, denken Sie bitte darüber nach, Folgendes zu zitieren:

ConfliBERT, title={ ConfliBERT : A Pre-trained Language Model for Political Conflict and Violence}, author={Hu, Yibo and Hosseini, MohammadSaleh and Parolin, Erick Skorupa and Osorio, Javier and Khan, Latifur and Brandt, Patrick and D’Orazio, Vito}, booktitle={Proceedings of the 2022 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies}, pages={5469--5482}, year={2022} }">

 @inproceedings{hu2022 ConfliBERT ,
  title={ ConfliBERT : A Pre-trained Language Model for Political Conflict and Violence},
  author={Hu, Yibo and Hosseini, MohammadSaleh and Parolin, Erick Skorupa and Osorio, Javier and Khan, Latifur and Brandt, Patrick and D’Orazio, Vito},
  booktitle={Proceedings of the 2022 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies},
  pages={5469--5482},
  year={2022}
}

Expandieren

Zusätzliche Informationen