Загрузка GreaseLM - Загрузка исходного кода GreaseLM

GreaseLM

AI Исходный код

1.0.0

Скачать

GreaseLM : Расширенные языковые модели Graph REASoning для ответов на вопросы

В этом репозитории представлены исходный код и данные нашей статьи GreaseLM : Graph REASoning Enhanced Language Models для ответов на вопросы (в центре внимания ICLR 2022). Если вы используете какой-либо наш код, обработанные данные или предварительно обученные модели, укажите:

GreaseLM, title={ GreaseLM : Graph REASoning Enhanced Language Models}, author={Zhang, Xikun and Bosselut, Antoine and Yasunaga, Michihiro and Ren, Hongyu and Liang, Percy and Manning, Christopher D and Leskovec, Jure}, booktitle={International Conference on Learning Representations}, year={2021} }">

 @inproceedings { zhang2021 GreaseLM ,
  title = { GreaseLM : Graph REASoning Enhanced Language Models } ,
  author = { Zhang, Xikun and Bosselut, Antoine and Yasunaga, Michihiro and Ren, Hongyu and Liang, Percy and Manning, Christopher D and Leskovec, Jure } ,
  booktitle = { International Conference on Learning Representations } ,
  year = { 2021 }
}

<класс диапазона= Архитектура модели GreaseLM" alt="" style="max-width: 100%;">

1. Зависимости

Питон == 3.8
ПиТорч == 1.8.0
трансформаторы == 3.4.0
факел-геометрический == 1.7.0

Выполните следующие команды, чтобы создать среду conda (при условии, что CUDA 10.1):

GreaseLM python=3.8 conda activate GreaseLM pip install numpy==1.18.3 tqdm pip install torch==1.8.0+cu101 torchvision -f https://download.pytorch.org/whl/torch_stable.html pip install transformers==3.4.0 nltk spacy pip install wandb conda install -y -c conda-forge tensorboardx conda install -y -c conda-forge tensorboard # for torch-geometric pip install torch-scatter==2.0.7 -f https://pytorch-geometric.com/whl/torch-1.8.0+cu101.html pip install torch-cluster==1.5.9 -f https://pytorch-geometric.com/whl/torch-1.8.0+cu101.html pip install torch-sparse==0.6.9 -f https://pytorch-geometric.com/whl/torch-1.8.0+cu101.html pip install torch-spline-conv==1.2.1 -f https://pytorch-geometric.com/whl/torch-1.8.0+cu101.html pip install torch-geometric==1.7.0 -f https://pytorch-geometric.com/whl/torch-1.8.0+cu101.html">

conda create -y -n GreaseLM python=3.8
conda activate GreaseLM
pip install numpy==1.18.3 tqdm
pip install torch==1.8.0+cu101 torchvision -f https://download.pytorch.org/whl/torch_stable.html
pip install transformers==3.4.0 nltk spacy
pip install wandb
conda install -y -c conda-forge tensorboardx
conda install -y -c conda-forge tensorboard

# for torch-geometric
pip install torch-scatter==2.0.7 -f https://pytorch-geometric.com/whl/torch-1.8.0+cu101.html
pip install torch-cluster==1.5.9 -f https://pytorch-geometric.com/whl/torch-1.8.0+cu101.html
pip install torch-sparse==0.6.9 -f https://pytorch-geometric.com/whl/torch-1.8.0+cu101.html
pip install torch-spline-conv==1.2.1 -f https://pytorch-geometric.com/whl/torch-1.8.0+cu101.html
pip install torch-geometric==1.7.0 -f https://pytorch-geometric.com/whl/torch-1.8.0+cu101.html

2. Загрузите данные

Загрузите и предварительно обработайте данные самостоятельно

Предварительная обработка данных самостоятельно может занять много времени, поэтому, если вы хотите напрямую загрузить предварительно обработанные данные, перейдите к следующему подразделу.

Загрузите необработанные данные ConceptNet, CommonsenseQA, OpenBookQA, используя

 ./download_raw_data.sh

Вы можете предварительно обработать эти необработанные данные, запустив

 CUDA_VISIBLE_DEVICES=0 python preprocess.py -p <num_processes>

Вы можете указать графический процессор, который хотите использовать, в начале команды CUDA_VISIBLE_DEVICES=... . Скрипт будет:

Настройка ConceptNet (например, извлечение английских отношений из ConceptNet, объединение исходных 42 типов отношений в 17 типов)
Преобразуйте наборы данных контроля качества в файлы .jsonl (например, хранящиеся в data/csqa/statement/ ).
Определите все упомянутые понятия в вопросах и ответах.
Извлечь подграфы для каждой пары qa

Сценарий для загрузки и предварительной обработки данных MedQA-USMLE и графика биомедицинских знаний на основе базы данных заболеваний и банка лекарств представлен в utils_biomed/ .

Непосредственная загрузка предварительно обработанных данных

Для вашего удобства, если вы не хотите предварительно обрабатывать данные самостоятельно, вы можете скачать все предварительно обработанные данные здесь. Загрузите их в каталог верхнего уровня этого репозитория и разархивируйте. Переместите папки medqa_usmle и ddb в каталог data/ .

Результирующая файловая структура

Результирующая структура файла должна выглядеть следующим образом:

 .
├── README.md
├── data/
    ├── cpnet/                 (prerocessed ConceptNet)
    ├── csqa/
        ├── train_rand_split.jsonl
        ├── dev_rand_split.jsonl
        ├── test_rand_split_no_answers.jsonl
        ├── statement/             (converted statements)
        ├── grounded/              (grounded entities)
        ├── graphs/                (extracted subgraphs)
        ├── ...
    ├── obqa/
    ├── medqa_usmle/
    └── ddb/

3. Тренировочная GreaseLM

Чтобы обучить GreaseLM на CommonsenseQA, запустите

 CUDA_VISIBLE_DEVICES=0 ./run_ GreaseLM .sh csqa --data_dir data/

Вы можете указать до двух графических процессоров, которые хотите использовать, в начале команды CUDA_VISIBLE_DEVICES=... .

Аналогично, чтобы обучить GreaseLM на OpenbookQA, запустите

 CUDA_VISIBLE_DEVICES=0 ./run_ GreaseLM .sh obqa --data_dir data/

Чтобы обучить GreaseLM на MedQA-USMLE, запустите

 CUDA_VISIBLE_DEVICES=0 ./run_ GreaseLM __medqa_usmle.sh

4. Предварительно обученные контрольные точки модели

Вы можете скачать предварительно обученную модель GreaseLM на CommonsenseQA здесь, которая соответствует требованиям IH-dev. 79.0 и IH-тест в соотв. 74.0 .

Вы также можете скачать предварительно обученную модель GreaseLM на OpenbookQA здесь, которая соответствует требованиям теста. 84.8 .

Вы также можете скачать предварительно обученную модель GreaseLM на MedQA-USMLE здесь, которая соответствует тесту. 38.5 .

5. Оценка контрольной точки предварительно обученной модели

Чтобы оценить предварительно обученную контрольную точку модели GreaseLM в CommonsenseQA, запустите

 CUDA_VISIBLE_DEVICES=0 ./eval_ GreaseLM .sh csqa --data_dir data/ --load_model_path /path/to/checkpoint

Опять же, вы можете указать до двух графических процессоров, которые хотите использовать, в начале команды CUDA_VISIBLE_DEVICES=... .

Аналогично, чтобы оценить предварительно обученную контрольную точку модели GreaseLM в OpenbookQA, запустите

 CUDA_VISIBLE_DEVICES=0 ./eval_ GreaseLM .sh obqa --data_dir data/ --load_model_path /path/to/checkpoint

Чтобы оценить предварительно обученную контрольную точку модели GreaseLM на MedQA-USMLE, запустите

 INHERIT_BERT=1 CUDA_VISIBLE_DEVICES=0 ./eval_ GreaseLM .sh medqa_usmle --data_dir data/ --load_model_path /path/to/checkpoint

6. Используйте свой собственный набор данных

Преобразуйте набор данных в {train,dev,test}.statement.jsonl в формате .jsonl (см. data/csqa/statement/train.statement.jsonl ).
Создайте каталог data/{yourdataset}/ для хранения файлов .jsonl.
Измените preprocess.py и выполните извлечение подграфов для ваших данных.
Измените utils/parser_utils.py для поддержки вашего собственного набора данных.

7. Благодарность

Это репо построено на основе следующей работы:

 QA-GNN: Question Answering using Language Models and Knowledge Graphs
https://github.com/michiyasunaga/qagnn

Огромное спасибо авторам и разработчикам!

Расширять

Дополнительная информация

Версия 1.0.0
Тип AI Исходный код
Время обновления 2024-12-30
размер 50MB
От Github

Связанные приложения

node telegram bot api

2024-12-14
typebot.io

2024-12-14
python wechaty getting started

2024-12-14
TranscriberBot

2024-12-14
genal chat

2024-12-14
Facemoji

2024-12-14

GreaseLM

GreaseLM : Расширенные языковые модели Graph REASoning для ответов на вопросы

1. Зависимости

2. Загрузите данные

Загрузите и предварительно обработайте данные самостоятельно

Непосредственная загрузка предварительно обработанных данных

Результирующая файловая структура

3. Тренировочная GreaseLM

4. Предварительно обученные контрольные точки модели

5. Оценка контрольной точки предварительно обученной модели

6. Используйте свой собственный набор данных

7. Благодарность

node telegram bot api

typebot.io

python wechaty getting started

TranscriberBot

genal chat

Facemoji

chat.petals.dev

GPT Prompt Templates

GPTyped

node telegram bot api

typebot.io

python wechaty getting started

waymo open dataset

termwind

wp functions