Система на основе машинного обучения, которая использует современные методы обработки естественного языка (НЛП) на вопросы и ответы (QA) в сочетании с обобщением для анализа доступной научной литературы.
Если вы используете в своей работе какие-либо исходные коды или наборы данных, включенные в этот набор инструментов, дайте ссылку на следующий документ. Бибтекс указан ниже:
@inproceedings{su2020caire, title={CAiRE-COVID: Система обобщения нескольких документов, ориентированная на ответы на вопросы и запросы, для управления научной информацией о COVID-19}, автор={Су, Дэн и Сюй, Ян и Ю, Течжэн и Сиддик, Фархад Бин и Барези, Эльхам и Фунг, Паскаль}, booktitle={Материалы 1-го семинара по НЛП при COVID-19 (Часть 2) на EMNLP 2020}, год={2020} }
Мы представляем CAiRE-COVID, систему ответов на вопросы (QA) в режиме реального времени и систему обобщения нескольких документов, которая выиграла одно из 10 заданий в конкурсе Kaggle по набору открытых исследовательских данных COVID-19 по оценке медицинских экспертов. Наша система направлена на решение недавней проблемы, связанной с анализом многочисленных опубликованных научных статей о COVID-19, отвечая на приоритетные вопросы сообщества и обобщая важную информацию, связанную с вопросами. Он сочетает в себе извлечение информации с современными методами обеспечения качества и ориентированными на запросы методами обобщения нескольких документов, выбирая и выделяя фрагменты доказательств из существующей литературы по запросу. Мы также предлагаем ориентированные на запросы абстрактные и извлекающие методы суммирования нескольких документов, чтобы предоставить более актуальную информацию, связанную с вопросом. Далее мы проводим количественные эксперименты, которые показывают последовательное улучшение различных показателей для каждого модуля. Мы запустили наш веб-сайт CAiRE-COVID для более широкого использования медицинским сообществом и открыли исходный код нашей системы, чтобы стимулировать дальнейшее изучение другими исследованиями.
На данный момент система CAiRE-COVID уже запущена онлайн. Пожалуйста, войдите в систему по адресу http://caire.ust.hk/covid.
Для нас большая честь сообщить, что наша заявка признана лучшим ответом на поставленную задачу. Что было опубликовано об обмене информацией и межсекторальном сотрудничестве?
pip install -r requirements.txt
Если вы хотите самостоятельно опробовать системные модули, вы можете использовать системный модуль следующими способами:
1. Перефразирование запроса
В этой части вы можете реализовать свои собственные методы или пропустить этот шаг, если ваши запросы относительно короткие и простые или вас не устраивает производительность SOTA. 2. Поисковая система 2.1 устанавливает зависимости Python и предварительно созданный индекс.
После получения информации lucene+answerini, как описано в: https://github.com/castorini/anserini/blob/master/docs/experiments-covid.md, сначала настройте JAVA sdk 11:
curl -O https://download.java.net/java/GA/jdk11/9/GPL/openjdk-11.0.2_linux-x64_bin.tar.gz
mv openjdk-11.0.2_linux-x64_bin.tar.gz /usr/lib/jvm/; cd /usr/lib/jvm/; tar -zxvf openjdk-11.0.2_linux-x64_bin.tar.gz
update-alternatives --install /usr/bin/java java /usr/lib/jvm/jdk-11.0.2/bin/java 1
update-alternatives --set java /usr/lib/jvm/jdk-11.0.2/bin/java
import os
os . environ [ "JAVA_HOME" ] = "/usr/lib/jvm/jdk-11.0.2"
2.2 Получите библиотеку pyserini, которая представляет собой anserini, обернутую Python:
pip install pyserini==0.8.1.0
Мы можем построить индекс люцена набора данных COVID-19 с нуля или получить один из готовых индексов. Используя индексацию абзацев, которая индексирует каждый абзац статьи (указатель уже загружен в качестве набора данных для использования), можно загрузить по ссылке.
from pyserini . search import pysearch
COVID_INDEX = 'the directory name of the index you downloaded from the above link'
Индексация осуществляется на основе каждого абзаца, объединенного с заголовком и аннотацией. Учитывая статью с идентификатором doc_id, индекс будет следующим:
2.3 Попробуйте пример!
python project/retrieval.py
Вы можете использовать наш пакет, установив его с помощью pip
или используя исходный код.
pip install caireCovid
В этой системе мы создаем модули контроля качества на основе ансамбля двух моделей контроля качества: модели BioBERT, доработанной для SQuAD, и модели MRQA, которую мы представили на MRQA@EMNLP 2019.
Модель MRQA и экспортированную модель BioBERT, используемые в этом проекте, можно загрузить по этой ссылке.
Если вы хотите использовать нашу модель MRQA в своей работе, пожалуйста, процитируйте следующую статью. Бибтекс указан ниже:
@inproceedings{su2019обобщая, title={Обобщение вопросно-ответной системы с предварительно обученной точной настройкой языковой модели}, автор={Су, Дэн и Сюй, Ян и Вината, Гента Индра и Сюй, Пэн и Ким, Хёнди и Лю, Зихан и Фунг, Паскаль}, booktitle={Материалы 2-го семинара по машинному чтению для ответов на вопросы}, страницы={203--211}, год={2019} }
Мы предоставляем пример скрипта, а вам нужно изменить пути к моделям QA в project/qa.py
. Обратите внимание, что окончательный результат уже переоценен на основе оценки повторного ранжирования.
python project/qa.py
Подсветка ключевых слов в основном реализуется путем сопоставления терминов, код которого можно найти в src/covidQA/highlights.py
.
Вы можете использовать наш пакет, установив его с помощью pip
или используя исходный код.
pip install covidSumm
Мы предоставляем примеры сценариев как для абстрактного, так и для экстрактивного реферирования.
python project/abstractive_summarization.py
python project/extractive_summarization.py