Unduh ConfliBERT - Unduh kode sumber ConfliBERT

ConfliBERT

Kode Sumber AI

1.0.0

Unduh

ConfliBERT : Model Bahasa Terlatih untuk Konflik Politik dan Kekerasan (NAACL 2022)

Repositori ini berisi kode penting untuk makalah ConfliBERT : Model Bahasa Terlatih untuk Konflik Politik dan Kekerasan (NAACL 2022).

Prasyarat

Kode ini ditulis dengan Python 3.6 di sistem Linux. Versi cuda adalah 10.2. Paket-paket yang diperlukan antara lain:

 torch==1.7.1 
transformers==4.17.0 
numpy==1.19.2 
scikit-learn==0.24.2
pandas==1.5.3
simpletransformers

Pos Pemeriksaan ConfliBERT

Kami menyediakan empat versi ConfliBERT :

ConfliBERT -scr-uncased: Pra-pelatihan dari awal dengan kosa kata kita sendiri yang tidak di-casing (lebih disukai)
ConfliBERT -scr-cased: Pelatihan awal dari awal dengan kosakata kasus kami sendiri
ConfliBERT -cont-uncased: Pra-pelatihan berkelanjutan dengan kosakata asli BERT tanpa casing
ConfliBERT -cont-cased: Pra-pelatihan berkelanjutan dengan kosakata kasus BERT asli

Anda dapat mengimpor keempat model di atas secara langsung melalui Huggingface API:

ConfliBERT-scr-uncased", use_auth_token=True) model = AutoModelForMaskedLM.from_pretrained("snowood1/ ConfliBERT -scr-uncased", use_auth_token=True)">

 from transformers import AutoTokenizer, AutoModelForMaskedLM
tokenizer = AutoTokenizer.from_pretrained("snowood1/ ConfliBERT -scr-uncased", use_auth_token=True)
model = AutoModelForMaskedLM.from_pretrained("snowood1/ ConfliBERT -scr-uncased", use_auth_token=True)

Evaluasi

Penggunaan ConfliBERT sama dengan model BERT lainnya di Huggingface.

Kami memberikan banyak contoh penggunaan Simple Transformers. Anda dapat menjalankan:

 CUDA_VISIBLE_DEVICES=0 python finetune_data.py --dataset IndiaPoliceEvents_sents --report_per_epoch

Klik demo Colab untuk melihat contoh evaluasi:

Kumpulan Data Evaluasi

Di bawah ini adalah ringkasan kumpulan data yang tersedia untuk umum:

Kumpulan data	Tautan
20 Grup Berita	https://www.kaggle.com/crawford/20-newsgroups
berita BBC	https://www.kaggle.com/c/learn-ai-bbc/overview
AcaraStatusCorpus	https://catalog.ldc.upenn.edu/LDC2017T09
Perselisihan Global	https://github.com/emerging-welfare/glocongold/tree/master/sample
Basis Data Terorisme Global	https://www.start.umd.edu/gtd/
Basis Data Kekerasan Senjata	http://gun-violence.org/download/
Acara Polisi India	https://github.com/slanglab/IndiaPoliceEvents
Kejahatan Wawasan	https://figshare.com/s/73f02ab8423bb83048aa
MUC-4	https://github.com/xinyadu/grit_doc_event_entity/tree/master/data/muc
ulang	https://github.com/juand-r/entity-recognition-datasets/tree/master/data/re3d
SATP	https://github.com/javierosorio/SATP
KAMEO	https://dl.acm.org/doi/abs/10.1145/3514094.3534178

Untuk menggunakan kumpulan data Anda sendiri, langkah pertama adalah memproses terlebih dahulu kumpulan data tersebut ke dalam format yang diperlukan di ./data. Misalnya,

IndiaPoliceEvents_sents untuk tugas klasifikasi. Formatnya adalah kalimat + label yang dipisahkan oleh tab.
re3d untuk tugas NER dalam format CONLL

Langkah ke-2 adalah membuat file konfigurasi yang sesuai di ./configs dengan tugas yang benar dari ["binary", "multiclass", "multilabel", "ner"].

Korps Pra-Pelatihan

Kami telah mengumpulkan korpus besar dalam domain politik dan konflik (33 GB) untuk pra-pelatihan ConfliBERT . Folder ./pretrain-corpora/Crawlers and Processes berisi contoh skrip yang digunakan untuk menghasilkan korpus yang digunakan dalam penelitian ini. Karena hak cipta, kami menyediakan beberapa sampel di ./pretrain-corpora/Samples. Contoh ini mengikuti format "format satu kalimat per baris". Lihat rincian lebih lanjut tentang corpora pra-pelatihan di Bagian 2 dan Lampiran makalah kami.

Skrip Pra-Pelatihan

Kami mengikuti skrip prapelatihan yang sama run_mlm.py dari Huggingface (Tautan asli). Di bawah ini adalah contoh penggunaan 8 GPU. Kami telah menyediakan parameter kami di Lampiran. Namun, Anda harus mengubah parameter sesuai dengan perangkat Anda:

	export NGPU=8; nohup python -m torch.distributed.launch --master_port 12345 
	--nproc_per_node=$NGPU run_mlm.py 
	--model_type bert 
	--config_name ./bert_base_cased 
	--tokenizer_name ./bert_base_cased 
	--output_dir ./bert_base_cased 
	--cache_dir ./cache_cased_128 
	--use_fast_tokenizer 
	--overwrite_output_dir 
	--train_file YOUR_TRAIN_FILE 
	--validation_file YOUR_VALID_FILE 
	--max_seq_length 128 
	--preprocessing_num_workers 4 
	--dataloader_num_workers 2 
	--do_train --do_eval 
	--learning_rate 5e-4 
	--warmup_steps=10000 
	--save_steps 1000 
	--evaluation_strategy steps 
	--eval_steps 10000 
	--prediction_loss_only  
	--save_total_limit 3 
	--per_device_train_batch_size 64 --per_device_eval_batch_size 64 
	--gradient_accumulation_steps 4 
	--logging_steps=100 
	--max_steps 100000 
	--adam_beta1 0.9 --adam_beta2 0.98 --adam_epsilon 1e-6 
	--fp16 True --weight_decay=0.01

Kutipan

Jika menurut Anda repo ini berguna dalam penelitian Anda, harap pertimbangkan untuk mengutip:

ConfliBERT, title={ ConfliBERT : A Pre-trained Language Model for Political Conflict and Violence}, author={Hu, Yibo and Hosseini, MohammadSaleh and Parolin, Erick Skorupa and Osorio, Javier and Khan, Latifur and Brandt, Patrick and D’Orazio, Vito}, booktitle={Proceedings of the 2022 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies}, pages={5469--5482}, year={2022} }">

 @inproceedings{hu2022 ConfliBERT ,
  title={ ConfliBERT : A Pre-trained Language Model for Political Conflict and Violence},
  author={Hu, Yibo and Hosseini, MohammadSaleh and Parolin, Erick Skorupa and Osorio, Javier and Khan, Latifur and Brandt, Patrick and D’Orazio, Vito},
  booktitle={Proceedings of the 2022 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies},
  pages={5469--5482},
  year={2022}
}

Memperluas

Informasi Tambahan

Versi 1.0.0
Tipe Kode Sumber AI
Waktu Pembaruan 2024-12-30
ukuran 50MB
Berasal dari Github

Aplikasi Terkait

node telegram bot api

2024-12-14
typebot.io

2024-12-14
python wechaty getting started

2024-12-14
TranscriberBot

2024-12-14
genal chat

2024-12-14
Facemoji

2024-12-14

Direkomendasikan untuk Anda

chat.petals.dev

Kode sumber lainnya

1.0.0
GPT Prompt Templates

Kode sumber lainnya

1.0.0
GPTyped

Kode sumber lainnya

GPTyped 1.0.5
node telegram bot api

Kode Sumber AI

v0.50.0
typebot.io

Kode Sumber AI

v3.1.2
python wechaty getting started

Kode Sumber AI

1.0.0
waymo open dataset

Kode sumber lainnya

December 2023 Update
termwind

Kategori lainnya

v2.3.0
wp functions

Kategori lainnya

1.0.0

Informasi Terkait Semua