Загрузка ConfliBERT - Загрузка исходного кода ConfliBERT

ConfliBERT

AI Исходный код

1.0.0

Скачать

ConfliBERT : предварительно обученная языковая модель для политических конфликтов и насилия (NAACL 2022)

Этот репозиторий содержит основной код для статьи ConfliBERT : предварительно обученная языковая модель для политических конфликтов и насилия (NAACL 2022).

Предварительные условия

Код написан на Python 3.6 в системе Linux. Версия cuda — 10.2. В необходимые пакеты входят:

 torch==1.7.1 
transformers==4.17.0 
numpy==1.19.2 
scikit-learn==0.24.2
pandas==1.5.3
simpletransformers

Контрольные точки ConfliBERT

Мы предоставили четыре версии ConfliBERT :

ConfliBERT -scr-uncased: предварительное обучение с нуля с использованием собственного словаря без регистра (предпочтительно)
ConfliBERT -scr-cased: предварительное обучение с нуля с использованием нашего собственного словаря
ConfliBERT -cont-uncased: постоянное предварительное обучение с использованием оригинального словаря BERT без регистра.
ConfliBERT -cont-cased: непрерывное предварительное обучение с использованием оригинального словаря BERT.

Вы можете импортировать четыре вышеупомянутые модели напрямую через API Huggingface:

ConfliBERT-scr-uncased", use_auth_token=True) model = AutoModelForMaskedLM.from_pretrained("snowood1/ ConfliBERT -scr-uncased", use_auth_token=True)">

 from transformers import AutoTokenizer, AutoModelForMaskedLM
tokenizer = AutoTokenizer.from_pretrained("snowood1/ ConfliBERT -scr-uncased", use_auth_token=True)
model = AutoModelForMaskedLM.from_pretrained("snowood1/ ConfliBERT -scr-uncased", use_auth_token=True)

Оценка

Использование ConfliBERT такое же, как и других моделей BERT в Huggingface.

Мы предоставили несколько примеров с использованием простых трансформаторов. Вы можете запустить:

 CUDA_VISIBLE_DEVICES=0 python finetune_data.py --dataset IndiaPoliceEvents_sents --report_per_epoch

Нажмите на демо-версию Colab, чтобы увидеть пример оценки:

Наборы оценочных данных

Ниже приводится краткое изложение общедоступных наборов данных:

Набор данных	Ссылки
20Группы новостей	https://www.kaggle.com/crawford/20-newsgroups
BBCnews	https://www.kaggle.com/c/learn-ai-bbc/overview
СостояниеСобытияКорпус	https://catalog.ldc.upenn.edu/LDC2017T09
ГлобальноеСоперничество	https://github.com/emerging-welfare/glocongold/tree/master/sample
Глобальная база данных по терроризму	https://www.start.umd.edu/gtd/
База данных о насилии с применением огнестрельного оружия	http://gun-violence.org/download/
ИндияПолицияМероприятия	https://github.com/slanglab/IndiaPoliceEvents
ИнсайтКриминал	https://figshare.com/s/73f02ab8423bb83048aa
МУЦ-4	https://github.com/xinyadu/grit_doc_event_entity/tree/master/data/muc
ре3д	https://github.com/juand-r/entity-recognition-datasets/tree/master/data/re3d
САТП	https://github.com/javirosorio/SATP
КАМЕЯ	https://dl.acm.org/doi/abs/10.1145/3514094.3534178

Чтобы использовать собственные наборы данных, первым шагом является предварительная обработка наборов данных в необходимые форматы в ./data. Например,

IndiaPoliceEvents_sents для задач классификации. Формат: предложение + метки, разделенные табуляцией.
re3d для задач NER в формате CONLL

Второй шаг — создать соответствующие файлы конфигурации в ./configs с правильными задачами из ["binary", "multiclass", "multilabel", "ner"].

Предтренировочный корпус

Мы собрали большой корпус в области политики и конфликтов (33 ГБ) для предварительной подготовки ConfliBERT . Папка ./pretrain-corpora/Crawlers and Processes содержит примеры сценариев, использованных для создания корпуса, используемого в этом исследовании. Из-за авторских прав мы предоставляем несколько примеров в ./pretrain-corpora/Samples. Эти образцы соответствуют формату «одно предложение в строке». Более подробную информацию о корпусах предварительной подготовки см. в разделе 2 и приложении нашей статьи.

Сценарии предварительной подготовки

Мы следовали тем же сценариям предварительной подготовки run_mlm.py из Huggingface (исходная ссылка). Ниже приведен пример использования 8 графических процессоров. Наши параметры мы предоставили в Приложении. Однако вам следует изменить параметры в соответствии с вашими устройствами:

	export NGPU=8; nohup python -m torch.distributed.launch --master_port 12345 
	--nproc_per_node=$NGPU run_mlm.py 
	--model_type bert 
	--config_name ./bert_base_cased 
	--tokenizer_name ./bert_base_cased 
	--output_dir ./bert_base_cased 
	--cache_dir ./cache_cased_128 
	--use_fast_tokenizer 
	--overwrite_output_dir 
	--train_file YOUR_TRAIN_FILE 
	--validation_file YOUR_VALID_FILE 
	--max_seq_length 128 
	--preprocessing_num_workers 4 
	--dataloader_num_workers 2 
	--do_train --do_eval 
	--learning_rate 5e-4 
	--warmup_steps=10000 
	--save_steps 1000 
	--evaluation_strategy steps 
	--eval_steps 10000 
	--prediction_loss_only  
	--save_total_limit 3 
	--per_device_train_batch_size 64 --per_device_eval_batch_size 64 
	--gradient_accumulation_steps 4 
	--logging_steps=100 
	--max_steps 100000 
	--adam_beta1 0.9 --adam_beta2 0.98 --adam_epsilon 1e-6 
	--fp16 True --weight_decay=0.01

Цитирование

Если вы найдете этот репозиторий полезным в своих исследованиях, рассмотрите возможность цитирования:

ConfliBERT, title={ ConfliBERT : A Pre-trained Language Model for Political Conflict and Violence}, author={Hu, Yibo and Hosseini, MohammadSaleh and Parolin, Erick Skorupa and Osorio, Javier and Khan, Latifur and Brandt, Patrick and D’Orazio, Vito}, booktitle={Proceedings of the 2022 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies}, pages={5469--5482}, year={2022} }">

 @inproceedings{hu2022 ConfliBERT ,
  title={ ConfliBERT : A Pre-trained Language Model for Political Conflict and Violence},
  author={Hu, Yibo and Hosseini, MohammadSaleh and Parolin, Erick Skorupa and Osorio, Javier and Khan, Latifur and Brandt, Patrick and D’Orazio, Vito},
  booktitle={Proceedings of the 2022 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies},
  pages={5469--5482},
  year={2022}
}

Расширять

Дополнительная информация