Téléchargement ConfliBERT - Téléchargement du code source ConfliBERT

ConfliBERT

Code Source AI

1.0.0

Télécharger

ConfliBERT : Un modèle linguistique pré-entraîné pour les conflits politiques et la violence (NAACL 2022)

Ce référentiel contient le code essentiel de l'article ConfliBERT : A Pre-trained Language Model for Political Conflict and Violence (NAACL 2022).

Conditions préalables

Le code est écrit par Python 3.6 sur le système Linux. La version cuda est 10.2. Les forfaits nécessaires comprennent :

 torch==1.7.1 
transformers==4.17.0 
numpy==1.19.2 
scikit-learn==0.24.2
pandas==1.5.3
simpletransformers

Points de contrôle ConfliBERT

Nous avons fourni quatre versions de ConfliBERT :

ConfliBERT -scr-uncased : Pré-entraînement à partir de zéro avec notre propre vocabulaire non casé (de préférence)
ConfliBERT -scr-cased : Pré-formation à partir de zéro avec notre propre vocabulaire casé
ConfliBERT -cont-uncased : préformation continue avec le vocabulaire non casqué original de BERT
ConfliBERT -cont-cased : Pré-formation continue avec le vocabulaire casé original de BERT

Vous pouvez importer les quatre modèles ci-dessus directement via l'API Huggingface :

ConfliBERT-scr-uncased", use_auth_token=True) model = AutoModelForMaskedLM.from_pretrained("snowood1/ ConfliBERT -scr-uncased", use_auth_token=True)">

 from transformers import AutoTokenizer, AutoModelForMaskedLM
tokenizer = AutoTokenizer.from_pretrained("snowood1/ ConfliBERT -scr-uncased", use_auth_token=True)
model = AutoModelForMaskedLM.from_pretrained("snowood1/ ConfliBERT -scr-uncased", use_auth_token=True)

Évaluation

L'utilisation de ConfliBERT est la même que celle des autres modèles BERT dans Huggingface.

Nous avons fourni plusieurs exemples utilisant Simple Transformers. Vous pouvez exécuter :

 CUDA_VISIBLE_DEVICES=0 python finetune_data.py --dataset IndiaPoliceEvents_sents --report_per_epoch

Cliquez sur la démo Colab pour voir un exemple d'évaluation :

Ensembles de données d'évaluation

Vous trouverez ci-dessous le résumé des ensembles de données accessibles au public :

Ensemble de données	Links
20Groupes de discussion	https://www.kaggle.com/crawford/20-newsgroups
BBCnouvelles	https://www.kaggle.com/c/learn-ai-bbc/overview
EventStatusCorpus	https://catalog.ldc.upenn.edu/LDC2017T09
GlobalContention	https://github.com/emerging-welfare/glocongold/tree/master/sample
Base de données mondiale sur le terrorisme	https://www.start.umd.edu/gtd/
Base de données sur la violence armée	http://gun-violence.org/download/
IndePoliceÉvénements	https://github.com/slanglab/IndiaPoliceEvents
AperçuCrime	https://figshare.com/s/73f02ab8423bb83048aa
MUC-4	https://github.com/xinyadu/grit_doc_event_entity/tree/master/data/muc
re3d	https://github.com/juand-r/entity-recognition-datasets/tree/master/data/re3d
SATP	https://github.com/javierosorio/SATP
CAMÉE	https://dl.acm.org/doi/abs/10.1145/3514094.3534178

Pour utiliser vos propres ensembles de données, la première étape consiste à prétraiter les ensembles de données dans les formats requis dans ./data. Par exemple,

IndiaPoliceEvents_sents pour les tâches de classification. Le format est une phrase + des étiquettes séparées par des tabulations.
re3d pour les tâches NER au format CONLL

La 2ème étape consiste à créer les fichiers de configuration correspondants dans ./configs avec les tâches correctes de ["binary", "multiclass", "multilabel", "ner"].

Corpus de pré-formation

Nous avons rassemblé un large corpus dans le domaine de la politique et des conflits (33 Go) pour la pré-formation ConfliBERT . Le dossier ./pretrain-corpora/Crawlers and Processes contient les exemples de scripts utilisés pour générer le corpus utilisé dans cette étude. En raison des droits d'auteur, nous fournissons quelques échantillons dans ./pretrain-corpora/Samples. Ces exemples suivent le format « une phrase par ligne ». Voir plus de détails sur les corpus de pré-formation dans la section 2 et l'annexe de notre article.

Scripts de pré-formation

Nous avons suivi les mêmes scripts de pré-formation run_mlm.py de Huggingface (le lien d'origine). Vous trouverez ci-dessous un exemple utilisant 8 GPU. Nous avons fourni nos paramètres en annexe. Cependant, vous devez modifier les paramètres en fonction de vos propres appareils :

	export NGPU=8; nohup python -m torch.distributed.launch --master_port 12345 
	--nproc_per_node=$NGPU run_mlm.py 
	--model_type bert 
	--config_name ./bert_base_cased 
	--tokenizer_name ./bert_base_cased 
	--output_dir ./bert_base_cased 
	--cache_dir ./cache_cased_128 
	--use_fast_tokenizer 
	--overwrite_output_dir 
	--train_file YOUR_TRAIN_FILE 
	--validation_file YOUR_VALID_FILE 
	--max_seq_length 128 
	--preprocessing_num_workers 4 
	--dataloader_num_workers 2 
	--do_train --do_eval 
	--learning_rate 5e-4 
	--warmup_steps=10000 
	--save_steps 1000 
	--evaluation_strategy steps 
	--eval_steps 10000 
	--prediction_loss_only  
	--save_total_limit 3 
	--per_device_train_batch_size 64 --per_device_eval_batch_size 64 
	--gradient_accumulation_steps 4 
	--logging_steps=100 
	--max_steps 100000 
	--adam_beta1 0.9 --adam_beta2 0.98 --adam_epsilon 1e-6 
	--fp16 True --weight_decay=0.01

Citation

Si vous trouvez ce dépôt utile dans votre recherche, pensez à citer :

ConfliBERT, title={ ConfliBERT : A Pre-trained Language Model for Political Conflict and Violence}, author={Hu, Yibo and Hosseini, MohammadSaleh and Parolin, Erick Skorupa and Osorio, Javier and Khan, Latifur and Brandt, Patrick and D’Orazio, Vito}, booktitle={Proceedings of the 2022 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies}, pages={5469--5482}, year={2022} }">

 @inproceedings{hu2022 ConfliBERT ,
  title={ ConfliBERT : A Pre-trained Language Model for Political Conflict and Violence},
  author={Hu, Yibo and Hosseini, MohammadSaleh and Parolin, Erick Skorupa and Osorio, Javier and Khan, Latifur and Brandt, Patrick and D’Orazio, Vito},
  booktitle={Proceedings of the 2022 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies},
  pages={5469--5482},
  year={2022}
}

Développer

Informations supplémentaires

Version 1.0.0
Type Code Source AI
Date de mise à jour 2024-12-30
taille 50MB
Provenant de Github

Applications connexes

node telegram bot api

2024-12-14
typebot.io

2024-12-14
python wechaty getting started

2024-12-14
TranscriberBot

2024-12-14
genal chat

2024-12-14
Facemoji

2024-12-14

Recommandé pour vous

chat.petals.dev

Autre code source

1.0.0
GPT Prompt Templates

Autre code source

1.0.0
GPTyped

Autre code source

GPTyped 1.0.5
node telegram bot api

Code Source AI

v0.50.0
typebot.io

Code Source AI

v3.1.2
python wechaty getting started

Code Source AI

1.0.0
waymo open dataset

Autre code source

December 2023 Update
termwind

Autres catégories

v2.3.0
wp functions

Autres catégories

1.0.0

Actualités connexes Tout