Загрузка CoLAKE - Загрузка исходного кода CoLAKE

CoLAKE

AI Исходный код

1.0.0

Скачать

CoLAKE

Исходный код статьи « CoLAKE : контекстуализированное внедрение языка и знаний». Если у вас возникли проблемы с воспроизведением экспериментов, свяжитесь с нами или предложите проблему.

Подготовьте свое окружение

Мы рекомендуем создать новую среду.

CoLAKE python=3.7 source activate CoLAKE ">

conda create --name CoLAKE python=3.7
source activate CoLAKE

CoLAKE реализован на основе преобразователей fastNLP и Huggingface и использует Fitlog для записи экспериментов.

git clone https://github.com/fastnlp/fastNLP.git
cd fastNLP/ & python setup.py install
git clone https://github.com/fastnlp/fitlog.git
cd fitlog/ & python setup.py install
pip install transformers==2.11
pip install sklearn

Чтобы переобучить CoLAKE , вам может потребоваться смешанное обучение CPU-GPU для обработки большого количества объектов. Наша реализация основана на KVStore, предоставленном DGL. Кроме того, для воспроизведения экспериментов по предсказанию ссылок вам также может понадобиться DGL-KE.

pip install dgl==0.4.3
pip install dglke

Воспроизведите эксперименты

1. Загрузите встроенные модели и сущности.

Загрузите предварительно обученную модель CoLAKE и внедрения для более чем 3 миллионов объектов. Для воспроизведения экспериментов на ЛАМА и ЛАМА-УХН достаточно скачать модель. Вы можете использовать download_gdrive.py в этом репозитории для прямой загрузки файлов с Google Диска на ваш сервер:

mkdir model
python download_gdrive.py 1MEGcmJUBXOyxKaK6K88fZFyj_IbH9U5b ./model/model.bin
python download_gdrive.py 1_FG9mpTrOnxV2NolXlu1n2ihgSZFXHnI ./model/entities.npy

Альтернативно вы можете использовать gdown :

pip install gdown
gdown https://drive.google.com/uc ? id=1MEGcmJUBXOyxKaK6K88fZFyj_IbH9U5b
gdown https://drive.google.com/uc ? id=1_FG9mpTrOnxV2NolXlu1n2ihgSZFXHnI

2. Проведите эксперименты

Загрузите наборы данных для экспериментов, описанных в статье: Google Диск.

python download_gdrive.py 1UNXICdkB5JbRyS5WTq6QNX4ndpMlNob6 ./data.tar.gz
tar -xzvf data.tar.gz
cd finetune/

ФьюРел

python run_re.py --debug --gpu 0

Открытая сущность

python run_typing.py --debug --gpu 0

ЛАМА и ЛАМА-УН

 cd ../lama/
python eval_lama.py

Переобучить CoLAKE

1. Загрузите данные

Загрузите последний дамп вики (формат XML):

wget -c https://dumps.wikimedia.org/enwiki/latest/enwiki-latest-pages-articles.xml.bz2

Скачать график знаний (Викиданные5М):

wget -c https://www.dropbox.com/s/6sbhm0rwo4l73jq/wikidata5m_transductive.tar.gz ? dl=1
tar -xzvf wikidata5m_transductive.tar.gz

Загрузите псевдонимы сущностей и отношений Wikidata5M:

wget -c https://www.dropbox.com/s/lnbhc8yuhit4wm5/wikidata5m_alias.tar.gz ? dl=1
tar -xzvf wikidata5m_alias.tar.gz

2. Предварительная обработка данных

Предварительная обработка дампа вики:

mkdir pretrain_data
# process xml-format wiki dump
python preprocess/WikiExtractor.py enwiki-latest-pages-articles.xml.bz2 -o pretrain_data/output -l --min_text_length 100 --filter_disambig_pages -it abbr,b,big --processes 4
# Modify anchors
python preprocess/extract.py 4
python preprocess/gen_data.py 4
# Count entity & relation frequency and generate vocabs
python statistic.py

3. Тренируйте CoLAKE

Инициализируйте внедрения сущностей и отношений со средним значением встраивания RoBERTa BPE псевдонимов сущностей и отношений:

 cd pretrain/
python init_ent_rel.py

Обучите CoLAKE со смешанным CPU-GPU:

./run_pretrain.sh

Цитировать

Если вы используете код и модель, дайте ссылку на этот документ:

CoLAKE, author = {Tianxiang Sun and Yunfan Shao and Xipeng Qiu and Qipeng Guo and Yaru Hu and Xuanjing Huang and Zheng Zhang}, title = { CoLAKE : Contextualized Language and Knowledge Embedding}, booktitle = {Proceedings of the 28th International Conference on Computational Linguistics, {COLING}}, year = {2020} }">

 @inproceedings{sun2020 CoLAKE ,
  author = {Tianxiang Sun and Yunfan Shao and Xipeng Qiu and Qipeng Guo and Yaru Hu and Xuanjing Huang and Zheng Zhang},
  title = { CoLAKE : Contextualized Language and Knowledge Embedding},
  booktitle = {Proceedings of the 28th International Conference on Computational Linguistics, {COLING}},
  year = {2020}
}