Téléchargement GreaseLM - Téléchargement du code source GreaseLM

GreaseLM

Code Source AI

1.0.0

Télécharger

GreaseLM : Modèles de langage améliorés pour le raisonnement graphique pour la réponse aux questions

Ce référentiel fournit le code source et les données de notre article GreaseLM : Graph REASoning Enhanced Language Models for Question Answering (projecteur ICLR 2022). Si vous utilisez l'un de nos codes, données traitées ou modèles pré-entraînés, veuillez citer :

GreaseLM, title={ GreaseLM : Graph REASoning Enhanced Language Models}, author={Zhang, Xikun and Bosselut, Antoine and Yasunaga, Michihiro and Ren, Hongyu and Liang, Percy and Manning, Christopher D and Leskovec, Jure}, booktitle={International Conference on Learning Representations}, year={2021} }">

 @inproceedings { zhang2021 GreaseLM ,
  title = { GreaseLM : Graph REASoning Enhanced Language Models } ,
  author = { Zhang, Xikun and Bosselut, Antoine and Yasunaga, Michihiro and Ren, Hongyu and Liang, Percy and Manning, Christopher D and Leskovec, Jure } ,
  booktitle = { International Conference on Learning Representations } ,
  year = { 2021 }
}

1. Dépendances

Python == 3.8
PyTorch == 1.8.0
transformateurs == 3.4.0
torche-géométrique == 1.7.0

Exécutez les commandes suivantes pour créer un environnement conda (en supposant que CUDA 10.1) :

GreaseLM python=3.8 conda activate GreaseLM pip install numpy==1.18.3 tqdm pip install torch==1.8.0+cu101 torchvision -f https://download.pytorch.org/whl/torch_stable.html pip install transformers==3.4.0 nltk spacy pip install wandb conda install -y -c conda-forge tensorboardx conda install -y -c conda-forge tensorboard # for torch-geometric pip install torch-scatter==2.0.7 -f https://pytorch-geometric.com/whl/torch-1.8.0+cu101.html pip install torch-cluster==1.5.9 -f https://pytorch-geometric.com/whl/torch-1.8.0+cu101.html pip install torch-sparse==0.6.9 -f https://pytorch-geometric.com/whl/torch-1.8.0+cu101.html pip install torch-spline-conv==1.2.1 -f https://pytorch-geometric.com/whl/torch-1.8.0+cu101.html pip install torch-geometric==1.7.0 -f https://pytorch-geometric.com/whl/torch-1.8.0+cu101.html">

conda create -y -n GreaseLM python=3.8
conda activate GreaseLM
pip install numpy==1.18.3 tqdm
pip install torch==1.8.0+cu101 torchvision -f https://download.pytorch.org/whl/torch_stable.html
pip install transformers==3.4.0 nltk spacy
pip install wandb
conda install -y -c conda-forge tensorboardx
conda install -y -c conda-forge tensorboard

# for torch-geometric
pip install torch-scatter==2.0.7 -f https://pytorch-geometric.com/whl/torch-1.8.0+cu101.html
pip install torch-cluster==1.5.9 -f https://pytorch-geometric.com/whl/torch-1.8.0+cu101.html
pip install torch-sparse==0.6.9 -f https://pytorch-geometric.com/whl/torch-1.8.0+cu101.html
pip install torch-spline-conv==1.2.1 -f https://pytorch-geometric.com/whl/torch-1.8.0+cu101.html
pip install torch-geometric==1.7.0 -f https://pytorch-geometric.com/whl/torch-1.8.0+cu101.html

2. Téléchargez les données

Téléchargez et prétraitez vous-même les données

Le prétraitement des données vous-même peut prendre du temps, donc si vous souhaitez télécharger directement les données prétraitées, veuillez passer à la sous-section suivante.

Téléchargez les données brutes ConceptNet, CommonsenseQA, OpenBookQA en utilisant

 ./download_raw_data.sh

Vous pouvez prétraiter ces données brutes en exécutant

 CUDA_VISIBLE_DEVICES=0 python preprocess.py -p <num_processes>

Vous pouvez spécifier le GPU que vous souhaitez utiliser au début de la commande CUDA_VISIBLE_DEVICES=... . Le script va :

Configurer ConceptNet (par exemple, extraire les relations anglaises de ConceptNet, fusionner les 42 types de relations d'origine en 17 types)
Convertissez les ensembles de données QA en fichiers .jsonl (par exemple, stockés dans data/csqa/statement/ )
Identifiez tous les concepts mentionnés dans les questions et réponses
Extraire les sous-graphiques pour chaque paire qa

Le script permettant de télécharger et de prétraiter les données MedQA-USMLE et le graphique des connaissances biomédicales basé sur la base de données sur les maladies et la DrugBank est fourni dans utils_biomed/ .

Téléchargez directement les données prétraitées

Pour votre commodité, si vous ne souhaitez pas prétraiter les données vous-même, vous pouvez télécharger toutes les données prétraitées ici. Téléchargez-les dans le répertoire de niveau supérieur de ce dépôt et décompressez-les. Déplacez les dossiers medqa_usmle et ddb dans le répertoire data/ .

Structure du fichier résultant

La structure du fichier résultant devrait ressembler à ceci :

 .
├── README.md
├── data/
    ├── cpnet/                 (prerocessed ConceptNet)
    ├── csqa/
        ├── train_rand_split.jsonl
        ├── dev_rand_split.jsonl
        ├── test_rand_split_no_answers.jsonl
        ├── statement/             (converted statements)
        ├── grounded/              (grounded entities)
        ├── graphs/                (extracted subgraphs)
        ├── ...
    ├── obqa/
    ├── medqa_usmle/
    └── ddb/

3. Formation GreaseLM

Pour entraîner GreaseLM sur CommonsenseQA, exécutez

 CUDA_VISIBLE_DEVICES=0 ./run_ GreaseLM .sh csqa --data_dir data/

Vous pouvez spécifier jusqu'à 2 GPU que vous souhaitez utiliser au début de la commande CUDA_VISIBLE_DEVICES=... .

De même, pour entraîner GreaseLM sur OpenbookQA, exécutez

 CUDA_VISIBLE_DEVICES=0 ./run_ GreaseLM .sh obqa --data_dir data/

Pour entraîner GreaseLM sur MedQA-USMLE, exécutez

 CUDA_VISIBLE_DEVICES=0 ./run_ GreaseLM __medqa_usmle.sh

4. Points de contrôle du modèle pré-entraîné

Vous pouvez télécharger ici un modèle GreaseLM pré-entraîné sur CommonsenseQA, qui obtient un acc. IH-dev. de 79.0 et un test IH selon. de 74.0 .

Vous pouvez également télécharger ici un modèle GreaseLM pré-entraîné sur OpenbookQA, qui réalise un test selon. de 84.8 .

Vous pouvez également télécharger ici un modèle GreaseLM pré-entraîné sur MedQA-USMLE, qui réalise un test selon. de 38.5 .

5. Évaluation d'un point de contrôle de modèle pré-entraîné

Pour évaluer un point de contrôle de modèle GreaseLM pré-entraîné sur CommonsenseQA, exécutez

 CUDA_VISIBLE_DEVICES=0 ./eval_ GreaseLM .sh csqa --data_dir data/ --load_model_path /path/to/checkpoint

Encore une fois, vous pouvez spécifier jusqu'à 2 GPU que vous souhaitez utiliser au début de la commande CUDA_VISIBLE_DEVICES=... .

De même, pour évaluer un point de contrôle de modèle GreaseLM pré-entraîné sur OpenbookQA, exécutez

 CUDA_VISIBLE_DEVICES=0 ./eval_ GreaseLM .sh obqa --data_dir data/ --load_model_path /path/to/checkpoint

Pour évaluer un point de contrôle de modèle GreaseLM pré-entraîné sur MedQA-USMLE, exécutez

 INHERIT_BERT=1 CUDA_VISIBLE_DEVICES=0 ./eval_ GreaseLM .sh medqa_usmle --data_dir data/ --load_model_path /path/to/checkpoint

6. Utilisez votre propre ensemble de données

Convertissez votre ensemble de données en {train,dev,test}.statement.jsonl au format .jsonl (voir data/csqa/statement/train.statement.jsonl )
Créez un répertoire dans data/{yourdataset}/ pour stocker les fichiers .jsonl
Modifiez preprocess.py et effectuez une extraction de sous-graphe pour vos données
Modifiez utils/parser_utils.py pour prendre en charge votre propre ensemble de données

7. Remerciement

Ce dépôt est construit sur les travaux suivants :

 QA-GNN: Question Answering using Language Models and Knowledge Graphs
https://github.com/michiyasunaga/qagnn

Un grand merci aux auteurs et développeurs !

Développer

Informations supplémentaires

Version 1.0.0
Type Code Source AI
Date de mise à jour 2024-12-30
taille 50MB
Provenant de Github

Applications connexes

node telegram bot api

2024-12-14
typebot.io

2024-12-14
python wechaty getting started

2024-12-14
TranscriberBot

2024-12-14
genal chat

2024-12-14
Facemoji

2024-12-14

Recommandé pour vous

chat.petals.dev

Autre code source

1.0.0
GPT Prompt Templates

Autre code source

1.0.0
GPTyped

Autre code source

GPTyped 1.0.5
node telegram bot api

Code Source AI

v0.50.0
typebot.io

Code Source AI

v3.1.2
python wechaty getting started

Code Source AI

1.0.0
waymo open dataset

Autre code source

December 2023 Update
termwind

Autres catégories

v2.3.0
wp functions

Autres catégories

1.0.0

Actualités connexes Tout