Descarga ConfliBERT - Descarga del código fuente ConfliBERT

ConfliBERT

Código Fuente de IA

1.0.0

Descargar

ConfliBERT : un modelo de lenguaje previamente entrenado para la violencia y los conflictos políticos (NAACL 2022)

Este repositorio contiene el código esencial para el artículo ConfliBERT : un modelo de lenguaje preentrenado para conflictos políticos y violencia (NAACL 2022).

Requisitos previos

El código está escrito en Python 3.6 en el sistema Linux. La versión de cuda es 10.2. Los paquetes necesarios incluyen:

 torch==1.7.1 
transformers==4.17.0 
numpy==1.19.2 
scikit-learn==0.24.2
pandas==1.5.3
simpletransformers

Puntos de control ConfliBERT

Proporcionamos cuatro versiones de ConfliBERT :

ConfliBERT -scr-uncased: Preentrenamiento desde cero con nuestro propio vocabulario uncased (preferido)
ConfliBERT -scr-cased: Preentrenamiento desde cero con nuestro propio vocabulario en mayúsculas y minúsculas
ConfliBERT -cont-uncased: entrenamiento previo continuo con el vocabulario sin case original de BERT
ConfliBERT -cont-cased: entrenamiento previo continuo con el vocabulario en mayúsculas original de BERT

Puede importar los cuatro modelos anteriores directamente a través de la API Huggingface:

ConfliBERT-scr-uncased", use_auth_token=True) model = AutoModelForMaskedLM.from_pretrained("snowood1/ ConfliBERT -scr-uncased", use_auth_token=True)">

 from transformers import AutoTokenizer, AutoModelForMaskedLM
tokenizer = AutoTokenizer.from_pretrained("snowood1/ ConfliBERT -scr-uncased", use_auth_token=True)
model = AutoModelForMaskedLM.from_pretrained("snowood1/ ConfliBERT -scr-uncased", use_auth_token=True)

Evaluación

El uso de ConfliBERT es el mismo que el de otros modelos BERT en Huggingface.

Proporcionamos varios ejemplos utilizando transformadores simples. Puedes ejecutar:

 CUDA_VISIBLE_DEVICES=0 python finetune_data.py --dataset IndiaPoliceEvents_sents --report_per_epoch

Haga clic en la demostración de Colab para ver un ejemplo de evaluación:

Conjuntos de datos de evaluación

A continuación se muestra el resumen de los conjuntos de datos disponibles públicamente:

Conjunto de datos	Campo de golf
20grupos de noticias	https://www.kaggle.com/crawford/20-newsgroups
BBCnoticias	https://www.kaggle.com/c/learn-ai-bbc/overview
Estado del eventoCorpus	https://catalog.ldc.upenn.edu/LDC2017T09
Contención Global	https://github.com/emerging-welfare/glocongold/tree/master/sample
Base de datos sobre terrorismo global	https://www.start.umd.edu/gtd/
Base de datos sobre violencia armada	http://gun-violence.org/download/
IndiaPolicíaEventos	https://github.com/slanglab/IndiaPoliceEvents
InsightCrimen	https://figshare.com/s/73f02ab8423bb83048aa
MUC-4	https://github.com/xinyadu/grit_doc_event_entity/tree/master/data/muc
re3d	https://github.com/juand-r/entity-recognition-datasets/tree/master/data/re3d
SATP	https://github.com/javierosorio/SATP
CAMAFEO	https://dl.acm.org/doi/abs/10.1145/3514094.3534178

Para utilizar sus propios conjuntos de datos, el primer paso es preprocesar los conjuntos de datos en los formatos requeridos en ./data. Por ejemplo,

IndiaPoliceEvents_sents para tareas de clasificación. El formato es oración + etiquetas separadas por tabulaciones.
re3d para tareas NER en formato CONLL

El segundo paso es crear los archivos de configuración correspondientes en ./configs con las tareas correctas de ["binary", "multiclass", "multilabel", "ner"].

Corpus de preentrenamiento

Hemos reunido un gran corpus en el dominio de política y conflictos (33 GB) para la capacitación previa ConfliBERT . La carpeta ./pretrain-corpora/Crawlers and Processes contiene los scripts de muestra utilizados para generar el corpus utilizado en este estudio. Debido a los derechos de autor, proporcionamos algunos ejemplos en ./pretrain-corpora/Samples. Estos ejemplos siguen el formato de "formato de una oración por línea". Vea más detalles sobre los corpus de preentrenamiento en la Sección 2 y el Apéndice de nuestro artículo.

Guiones de preentrenamiento

Seguimos los mismos scripts de preentrenamiento run_mlm.py de Huggingface (el enlace original). A continuación se muestra un ejemplo que utiliza 8 GPU. Hemos proporcionado nuestros parámetros en el Apéndice. Sin embargo, debes cambiar los parámetros según tus propios dispositivos:

	export NGPU=8; nohup python -m torch.distributed.launch --master_port 12345 
	--nproc_per_node=$NGPU run_mlm.py 
	--model_type bert 
	--config_name ./bert_base_cased 
	--tokenizer_name ./bert_base_cased 
	--output_dir ./bert_base_cased 
	--cache_dir ./cache_cased_128 
	--use_fast_tokenizer 
	--overwrite_output_dir 
	--train_file YOUR_TRAIN_FILE 
	--validation_file YOUR_VALID_FILE 
	--max_seq_length 128 
	--preprocessing_num_workers 4 
	--dataloader_num_workers 2 
	--do_train --do_eval 
	--learning_rate 5e-4 
	--warmup_steps=10000 
	--save_steps 1000 
	--evaluation_strategy steps 
	--eval_steps 10000 
	--prediction_loss_only  
	--save_total_limit 3 
	--per_device_train_batch_size 64 --per_device_eval_batch_size 64 
	--gradient_accumulation_steps 4 
	--logging_steps=100 
	--max_steps 100000 
	--adam_beta1 0.9 --adam_beta2 0.98 --adam_epsilon 1e-6 
	--fp16 True --weight_decay=0.01

Citación

Si encuentra útil este repositorio en su investigación, considere citar:

ConfliBERT, title={ ConfliBERT : A Pre-trained Language Model for Political Conflict and Violence}, author={Hu, Yibo and Hosseini, MohammadSaleh and Parolin, Erick Skorupa and Osorio, Javier and Khan, Latifur and Brandt, Patrick and D’Orazio, Vito}, booktitle={Proceedings of the 2022 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies}, pages={5469--5482}, year={2022} }">

 @inproceedings{hu2022 ConfliBERT ,
  title={ ConfliBERT : A Pre-trained Language Model for Political Conflict and Violence},
  author={Hu, Yibo and Hosseini, MohammadSaleh and Parolin, Erick Skorupa and Osorio, Javier and Khan, Latifur and Brandt, Patrick and D’Orazio, Vito},
  booktitle={Proceedings of the 2022 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies},
  pages={5469--5482},
  year={2022}
}

Expandir

Información adicional

Versión 1.0.0
Tipo Código Fuente de IA
Fecha de actualización 2024-12-30
tamaño 50MB
Proviene de Github

Aplicaciones relacionadas

node telegram bot api

2024-12-14
typebot.io

2024-12-14
python wechaty getting started

2024-12-14
TranscriberBot

2024-12-14
genal chat

2024-12-14
Facemoji

2024-12-14

Recomendado para ti

chat.petals.dev

Otro código fuente

1.0.0
GPT Prompt Templates

Otro código fuente

1.0.0
GPTyped

Otro código fuente

GPTyped 1.0.5
node telegram bot api

Código Fuente de IA

v0.50.0
typebot.io

Código Fuente de IA

v3.1.2
python wechaty getting started

Código Fuente de IA

1.0.0
waymo open dataset

Otro código fuente

December 2023 Update
termwind

Otras categorias

v2.3.0
wp functions

Otras categorias

1.0.0

Información relacionada Todo