Download ConfliBERT - Download do código-fonte ConfliBERT

ConfliBERT

Código-Fonte de IA

1.0.0

Baixar

ConfliBERT : um modelo de linguagem pré-treinado para conflitos políticos e violência (NAACL 2022)

Este repositório contém o código essencial para o artigo ConfliBERT : um modelo de linguagem pré-treinado para conflito político e violência (NAACL 2022).

Pré-requisitos

O código é escrito em Python 3.6 no sistema Linux. A versão cuda é 10.2. Os pacotes necessários incluem:

 torch==1.7.1 
transformers==4.17.0 
numpy==1.19.2 
scikit-learn==0.24.2
pandas==1.5.3
simpletransformers

Pontos de verificação ConfliBERT

Fornecemos quatro versões do ConfliBERT :

ConfliBERT -scr-uncased: Pré-treinamento do zero com nosso próprio vocabulário sem case (preferencial)
ConfliBERT -scr-cased: Pré-treinamento do zero com nosso próprio vocabulário cased
ConfliBERT -cont-uncased: Pré-treinamento contínuo com o vocabulário original sem case do BERT
ConfliBERT -cont-cased: Pré-treinamento contínuo com o vocabulário cased original do BERT

Você pode importar os quatro modelos acima diretamente por meio da API Huggingface:

ConfliBERT-scr-uncased", use_auth_token=True) model = AutoModelForMaskedLM.from_pretrained("snowood1/ ConfliBERT -scr-uncased", use_auth_token=True)">

 from transformers import AutoTokenizer, AutoModelForMaskedLM
tokenizer = AutoTokenizer.from_pretrained("snowood1/ ConfliBERT -scr-uncased", use_auth_token=True)
model = AutoModelForMaskedLM.from_pretrained("snowood1/ ConfliBERT -scr-uncased", use_auth_token=True)

Avaliação

O uso do ConfliBERT é igual a outros modelos de BERT no Huggingface.

Fornecemos vários exemplos usando Transformadores Simples. Você pode executar:

 CUDA_VISIBLE_DEVICES=0 python finetune_data.py --dataset IndiaPoliceEvents_sents --report_per_epoch

Clique na demonstração do Colab para ver um exemplo de avaliação:

Conjuntos de dados de avaliação

Abaixo está o resumo dos conjuntos de dados disponíveis publicamente:

Conjunto de dados	Ligações
20Grupos de notícias	https://www.kaggle.com/crawford/20-newsgroups
BBC notícias	https://www.kaggle.com/c/learn-ai-bbc/overview
EventStatusCorpus	https://catalog.ldc.upenn.edu/LDC2017T09
Contenção Global	https://github.com/emerging-welfare/glocongold/tree/master/sample
Banco de dados de terrorismo global	https://www.start.umd.edu/gtd/
Banco de dados de violência armada	http://gun-violence.org/download/
ÍndiaPolíciaEventos	https://github.com/slanglab/IndiaPoliceEvents
InsightCrime	https://figshare.com/s/73f02ab8423bb83048aa
MUC-4	https://github.com/xinyadu/grit_doc_event_entity/tree/master/data/muc
re3d	https://github.com/juand-r/entity-recognition-datasets/tree/master/data/re3d
SATP	https://github.com/javierosorio/SATP
CAMEO	https://dl.acm.org/doi/abs/10.1145/3514094.3534178

Para usar seus próprios conjuntos de dados, a primeira etapa é pré-processar os conjuntos de dados nos formatos necessários em ./data. Por exemplo,

IndiaPoliceEvents_sents para tarefas de classificação. O formato é frase + rótulos separados por tabulações.
re3d para tarefas NER em formato CONLL

O segundo passo é criar os arquivos de configuração correspondentes em ./configs com as tarefas corretas de ["binary", "multiclass", "multilabel", "ner"].

Corpus de pré-treinamento

Reunimos um grande corpus no domínio de política e conflitos (33 GB) para pré-treinamento ConfliBERT . A pasta ./pretrain-corpora/Crawlers and Processes contém os scripts de amostra utilizados para gerar o corpus utilizado neste estudo. Devido aos direitos autorais, fornecemos alguns exemplos em ./pretrain-corpora/Samples. Esses exemplos seguem o formato de "formato de uma frase por linha". Veja mais detalhes dos corpora de pré-treinamento na Seção 2 e no Apêndice do nosso artigo.

Scripts de pré-treinamento

Seguimos os mesmos scripts de pré-treinamento run_mlm.py do Huggingface (o link original). Abaixo está um exemplo usando 8 GPUs. Fornecemos nossos parâmetros no Apêndice. No entanto, você deve alterar os parâmetros de acordo com seus próprios dispositivos:

	export NGPU=8; nohup python -m torch.distributed.launch --master_port 12345 
	--nproc_per_node=$NGPU run_mlm.py 
	--model_type bert 
	--config_name ./bert_base_cased 
	--tokenizer_name ./bert_base_cased 
	--output_dir ./bert_base_cased 
	--cache_dir ./cache_cased_128 
	--use_fast_tokenizer 
	--overwrite_output_dir 
	--train_file YOUR_TRAIN_FILE 
	--validation_file YOUR_VALID_FILE 
	--max_seq_length 128 
	--preprocessing_num_workers 4 
	--dataloader_num_workers 2 
	--do_train --do_eval 
	--learning_rate 5e-4 
	--warmup_steps=10000 
	--save_steps 1000 
	--evaluation_strategy steps 
	--eval_steps 10000 
	--prediction_loss_only  
	--save_total_limit 3 
	--per_device_train_batch_size 64 --per_device_eval_batch_size 64 
	--gradient_accumulation_steps 4 
	--logging_steps=100 
	--max_steps 100000 
	--adam_beta1 0.9 --adam_beta2 0.98 --adam_epsilon 1e-6 
	--fp16 True --weight_decay=0.01

Citação

Se você achar este repositório útil em sua pesquisa, considere citar:

ConfliBERT, title={ ConfliBERT : A Pre-trained Language Model for Political Conflict and Violence}, author={Hu, Yibo and Hosseini, MohammadSaleh and Parolin, Erick Skorupa and Osorio, Javier and Khan, Latifur and Brandt, Patrick and D’Orazio, Vito}, booktitle={Proceedings of the 2022 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies}, pages={5469--5482}, year={2022} }">

 @inproceedings{hu2022 ConfliBERT ,
  title={ ConfliBERT : A Pre-trained Language Model for Political Conflict and Violence},
  author={Hu, Yibo and Hosseini, MohammadSaleh and Parolin, Erick Skorupa and Osorio, Javier and Khan, Latifur and Brandt, Patrick and D’Orazio, Vito},
  booktitle={Proceedings of the 2022 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies},
  pages={5469--5482},
  year={2022}
}

Expandir

Informações adicionais

Versão 1.0.0
Tipo Código-Fonte de IA
Data da Última Atualização 2024-12-30
tamanho 50MB
Vindo de Github

Aplicativos Relacionados

node telegram bot api

2024-12-14
typebot.io

2024-12-14
python wechaty getting started

2024-12-14
TranscriberBot

2024-12-14
genal chat

2024-12-14
Facemoji

2024-12-14

Recomendado para você

chat.petals.dev

Outro código-fonte

1.0.0
GPT Prompt Templates

Outro código-fonte

1.0.0
GPTyped

Outro código-fonte

GPTyped 1.0.5
node telegram bot api

Código-Fonte de IA

v0.50.0
typebot.io

Código-Fonte de IA

v3.1.2
python wechaty getting started

Código-Fonte de IA

1.0.0
waymo open dataset

Outro código-fonte

December 2023 Update
termwind

Outras categorias

v2.3.0
wp functions

Outras categorias

1.0.0

Informações Relacionadas Todos