ConfliBERTダウンロード - ConfliBERTソースコードのダウンロード

ConfliBERT

AI ソースコード

1.0.0

ダウンロード

ConfliBERT : 政治的紛争と暴力のための事前トレーニング済み言語モデル (NAACL 2022)

このリポジトリには、論文ConfliBERT : A Pre-trained Language Model for Political Conflict and Violence (NAACL 2022)」の必須コードが含まれています。

前提条件

コードは Linux システムの Python 3.6 によって書かれています。 cudaのバージョンは10.2です。必要なパッケージには次のものが含まれます。

 torch==1.7.1 
transformers==4.17.0 
numpy==1.19.2 
scikit-learn==0.24.2
pandas==1.5.3
simpletransformers

ConfliBERTチェックポイント

ConfliBERTの 4 つのバージョンが提供されました。

ConfliBERT -scr-uncased: 独自のケース化されていない語彙を使用して最初から事前トレーニングします (推奨)
ConfliBERT -scr-cased: 独自のケース化された語彙を使用してゼロから事前トレーニングする
ConfliBERT -cont-uncased: オリジナルの BERT の uncased 語彙を使用した継続的な事前トレーニング
ConfliBERT -cont-cased: オリジナルの BERT のケース化された語彙を使用した継続的な事前トレーニング

上記の 4 つのモデルは、Huggingface API を介して直接インポートできます。

ConfliBERT-scr-uncased", use_auth_token=True) model = AutoModelForMaskedLM.from_pretrained("snowood1/ ConfliBERT -scr-uncased", use_auth_token=True)">

 from transformers import AutoTokenizer, AutoModelForMaskedLM
tokenizer = AutoTokenizer.from_pretrained("snowood1/ ConfliBERT -scr-uncased", use_auth_token=True)
model = AutoModelForMaskedLM.from_pretrained("snowood1/ ConfliBERT -scr-uncased", use_auth_token=True)

評価

ConfliBERTの使用法は、Huggingface の他の BERT モデルと同じです。

Simple Transformers を使用した複数の例を提供しました。以下を実行できます。

 CUDA_VISIBLE_DEVICES=0 python finetune_data.py --dataset IndiaPoliceEvents_sents --report_per_epoch

Colab デモをクリックすると、評価の例が表示されます。

評価データセット

以下は、公開されているデータセットの概要です。

データセット	リンク
20ニュースグループ	https://www.kaggle.com/crawford/20-newsgroups
BBCニュース	https://www.kaggle.com/c/learn-ai-bbc/overview
イベントステータスコーパス	https://catalog.ldc.upenn.edu/LDC2017T09
グローバルコンテンション	https://github.com/emerging-welfare/glocongold/tree/master/sample
グローバルテロリズムデータベース	https://www.start.umd.edu/gtd/
銃暴力データベース	http://gun-violence.org/download/
インド警察イベント	https://github.com/slanglab/IndiaPoliceEvents
洞察犯罪	https://figshare.com/s/73f02ab8423bb83048aa
MUC-4	https://github.com/xinyadu/grit_doc_event_entity/tree/master/data/muc
再3d	https://github.com/juand-r/entity-recognition-datasets/tree/master/data/re3d
SATP	https://github.com/javierosorio/SATP
カメオ	https://dl.acm.org/doi/abs/10.1145/3514094.3534178

独自のデータセットを使用するには、最初のステップとして、データセットを ./data で必要な形式に前処理します。例えば、

IndiaPoliceEvents_sents (分類タスク用)。形式は文+ラベルをタブで区切ったものです。
CONLL 形式の NER タスク用の re3d

2 番目のステップは、["binary"、"multiclass"、"multilabel"、"ner"] からの正しいタスクを含む対応する構成ファイルを ./configs に作成することです。

事前トレーニングコーパス

ConfliBERT事前トレーニング用に、政治と紛争ドメインの大規模なコーパス (33 GB) を収集しました。フォルダー ./pretrain-corpora/Crawlers and Processes には、この研究で使用されるコーパスの生成に使用されるサンプルスクリプトが含まれています。著作権のため、いくつかのサンプルを ./pretrain-corpora/Samples に提供しています。これらのサンプルは「1 行 1 文形式」の形式に従っています。事前トレーニングコーパスの詳細については、論文のセクション 2 と付録を参照してください。

事前トレーニングスクリプト

Huggingface (元のリンク) の同じ事前トレーニングスクリプト run_mlm.py に従いました。以下は 8 つの GPU を使用した例です。パラメータは付録に記載されています。ただし、自分のデバイスに応じてパラメータを変更する必要があります。

	export NGPU=8; nohup python -m torch.distributed.launch --master_port 12345 
	--nproc_per_node=$NGPU run_mlm.py 
	--model_type bert 
	--config_name ./bert_base_cased 
	--tokenizer_name ./bert_base_cased 
	--output_dir ./bert_base_cased 
	--cache_dir ./cache_cased_128 
	--use_fast_tokenizer 
	--overwrite_output_dir 
	--train_file YOUR_TRAIN_FILE 
	--validation_file YOUR_VALID_FILE 
	--max_seq_length 128 
	--preprocessing_num_workers 4 
	--dataloader_num_workers 2 
	--do_train --do_eval 
	--learning_rate 5e-4 
	--warmup_steps=10000 
	--save_steps 1000 
	--evaluation_strategy steps 
	--eval_steps 10000 
	--prediction_loss_only  
	--save_total_limit 3 
	--per_device_train_batch_size 64 --per_device_eval_batch_size 64 
	--gradient_accumulation_steps 4 
	--logging_steps=100 
	--max_steps 100000 
	--adam_beta1 0.9 --adam_beta2 0.98 --adam_epsilon 1e-6 
	--fp16 True --weight_decay=0.01

引用

このリポジトリが研究に役立つと思われる場合は、次の引用を検討してください。

ConfliBERT, title={ ConfliBERT : A Pre-trained Language Model for Political Conflict and Violence}, author={Hu, Yibo and Hosseini, MohammadSaleh and Parolin, Erick Skorupa and Osorio, Javier and Khan, Latifur and Brandt, Patrick and D’Orazio, Vito}, booktitle={Proceedings of the 2022 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies}, pages={5469--5482}, year={2022} }">

 @inproceedings{hu2022 ConfliBERT ,
  title={ ConfliBERT : A Pre-trained Language Model for Political Conflict and Violence},
  author={Hu, Yibo and Hosseini, MohammadSaleh and Parolin, Erick Skorupa and Osorio, Javier and Khan, Latifur and Brandt, Patrick and D’Orazio, Vito},
  booktitle={Proceedings of the 2022 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies},
  pages={5469--5482},
  year={2022}
}

拡大する

追加情報