Unduh CoLAKE - Unduh kode sumber CoLAKE

CoLAKE

Kode Sumber AI

1.0.0

Unduh

CoLAKE

Kode sumber untuk makalah " CoLAKE : Penyematan Bahasa dan Pengetahuan yang Dikontekstualisasikan". Jika Anda memiliki masalah dalam mereproduksi eksperimen, jangan ragu untuk menghubungi kami atau mengajukan masalah.

Persiapkan lingkungan Anda

Kami menyarankan untuk menciptakan lingkungan baru.

CoLAKE python=3.7 source activate CoLAKE ">

conda create --name CoLAKE python=3.7
source activate CoLAKE

CoLAKE diimplementasikan berdasarkan fastNLP dan transformator Huggingface, dan menggunakan fitlog untuk mencatat eksperimen.

git clone https://github.com/fastnlp/fastNLP.git
cd fastNLP/ & python setup.py install
git clone https://github.com/fastnlp/fitlog.git
cd fitlog/ & python setup.py install
pip install transformers==2.11
pip install sklearn

Untuk melatih ulang CoLAKE , Anda mungkin memerlukan pelatihan campuran CPU-GPU untuk menangani entitas dalam jumlah besar. Implementasi kami didasarkan pada KVStore yang disediakan oleh DGL. Selain itu, untuk mereproduksi eksperimen prediksi tautan, Anda mungkin juga memerlukan DGL-KE.

pip install dgl==0.4.3
pip install dglke

Reproduksi eksperimen tersebut

1. Unduh model dan penyematan entitas

Unduh model dan penyematan CoLAKE terlatih untuk lebih dari 3 juta entitas. Untuk mereproduksi percobaan pada LAMA dan LAMA-UHN, Anda hanya perlu mendownload modelnya. Anda dapat menggunakan download_gdrive.py di repo ini untuk langsung mengunduh file dari Google Drive ke server Anda:

mkdir model
python download_gdrive.py 1MEGcmJUBXOyxKaK6K88fZFyj_IbH9U5b ./model/model.bin
python download_gdrive.py 1_FG9mpTrOnxV2NolXlu1n2ihgSZFXHnI ./model/entities.npy

Alternatifnya, Anda dapat menggunakan gdown :

pip install gdown
gdown https://drive.google.com/uc ? id=1MEGcmJUBXOyxKaK6K88fZFyj_IbH9U5b
gdown https://drive.google.com/uc ? id=1_FG9mpTrOnxV2NolXlu1n2ihgSZFXHnI

2. Jalankan eksperimen

Unduh kumpulan data untuk eksperimen di makalah: Google Drive.

python download_gdrive.py 1UNXICdkB5JbRyS5WTq6QNX4ndpMlNob6 ./data.tar.gz
tar -xzvf data.tar.gz
cd finetune/

Sedikit Rel

python run_re.py --debug --gpu 0

Buka Entitas

python run_typing.py --debug --gpu 0

LAMA dan LAMA-UHN

 cd ../lama/
python eval_lama.py

Latih kembali CoLAKE

1. Unduh datanya

Unduh wiki dump terbaru (format XML):

wget -c https://dumps.wikimedia.org/enwiki/latest/enwiki-latest-pages-articles.xml.bz2

Unduh grafik pengetahuan (Wikidata5M):

wget -c https://www.dropbox.com/s/6sbhm0rwo4l73jq/wikidata5m_transductive.tar.gz ? dl=1
tar -xzvf wikidata5m_transductive.tar.gz

Unduh entitas & alias relasi Wikidata5M:

wget -c https://www.dropbox.com/s/lnbhc8yuhit4wm5/wikidata5m_alias.tar.gz ? dl=1
tar -xzvf wikidata5m_alias.tar.gz

2. Memproses data terlebih dahulu

Pemrosesan awal dump wiki:

mkdir pretrain_data
# process xml-format wiki dump
python preprocess/WikiExtractor.py enwiki-latest-pages-articles.xml.bz2 -o pretrain_data/output -l --min_text_length 100 --filter_disambig_pages -it abbr,b,big --processes 4
# Modify anchors
python preprocess/extract.py 4
python preprocess/gen_data.py 4
# Count entity & relation frequency and generate vocabs
python statistic.py

3. Latih CoLAKE

Inisialisasi penyematan entitas dan relasi dengan rata-rata penyematan alias entitas dan relasi RoBERTa BPE:

 cd pretrain/
python init_ent_rel.py

Latih CoLAKE dengan CPU-GPU campuran:

./run_pretrain.sh

Mengutip

Jika Anda menggunakan kode dan model, harap kutip makalah ini:

CoLAKE, author = {Tianxiang Sun and Yunfan Shao and Xipeng Qiu and Qipeng Guo and Yaru Hu and Xuanjing Huang and Zheng Zhang}, title = { CoLAKE : Contextualized Language and Knowledge Embedding}, booktitle = {Proceedings of the 28th International Conference on Computational Linguistics, {COLING}}, year = {2020} }">

 @inproceedings{sun2020 CoLAKE ,
  author = {Tianxiang Sun and Yunfan Shao and Xipeng Qiu and Qipeng Guo and Yaru Hu and Xuanjing Huang and Zheng Zhang},
  title = { CoLAKE : Contextualized Language and Knowledge Embedding},
  booktitle = {Proceedings of the 28th International Conference on Computational Linguistics, {COLING}},
  year = {2020}
}