基于机器学习的系统,使用最先进的自然语言处理 (NLP) 问答 (QA) 技术并结合摘要来挖掘可用的科学文献
如果您在工作中使用此工具包中包含的任何源代码或数据集,请引用以下论文。 bibtex 列出如下:
@inproceedings{su2020caire, title={CAiRE-COVID:用于 COVID-19 学术信息管理的问答和以查询为中心的多文档摘要系统}, 作者={Su、Dan 和 Xu、Yan 和 Yu、铁正和 Siddique、Farhad Bin 和 Barezi、Elham 和 Fung、Pascale}, booktitle={EMNLP 2020 第一届 NLP for COVID-19 研讨会论文集(第 2 部分)}, 年={2020} }
我们推出了 CAiRE-COVID,一种实时问答 (QA) 和多文档摘要系统,该系统赢得了由医学专家评审的 Kaggle COVID-19 开放研究数据集挑战赛的 10 项任务之一。我们的系统旨在通过回答社区的高优先级问题并总结与突出问题相关的信息,来应对最近挖掘有关 COVID-19 的大量科学文章的挑战。它将信息提取与最先进的 QA 和以查询为中心的多文档摘要技术相结合,根据查询从现有文献中选择并突出显示证据片段。我们还提出了以查询为中心的抽象和提取多文档摘要方法,以提供与问题相关的更多相关信息。我们进一步进行定量实验,显示每个模块的各种指标都有一致的改进。我们推出了我们的网站 CAiRE-COVID 供医学界更广泛使用,并开源了我们系统的代码,以引导其他研究人员进一步研究。
目前CAiRE-COVID系统已上线。请通过http://caire.ust.hk/covid访问该系统。
我们很荣幸地获悉,我们提交的内容已成为该任务的最佳回应,关于信息共享和部门间合作已发表哪些内容?
pip install -r requirements.txt
如果您有兴趣亲自尝试系统模块,您可以通过以下方法使用系统模块:
1. 查询释义
对于这部分,您可以实现自己的方法,或者如果您的查询相对较短且简单或者您不追求 SOTA 性能,则可以跳过此步骤。 2.搜索引擎2.1安装Python依赖和预建索引
按照https://github.com/castorini/anserini/blob/master/docs/experiments-covid.md中所述的lucene+answerini信息检索,首先设置JAVA sdk 11:
curl -O https://download.java.net/java/GA/jdk11/9/GPL/openjdk-11.0.2_linux-x64_bin.tar.gz
mv openjdk-11.0.2_linux-x64_bin.tar.gz /usr/lib/jvm/; cd /usr/lib/jvm/; tar -zxvf openjdk-11.0.2_linux-x64_bin.tar.gz
update-alternatives --install /usr/bin/java java /usr/lib/jvm/jdk-11.0.2/bin/java 1
update-alternatives --set java /usr/lib/jvm/jdk-11.0.2/bin/java
import os
os . environ [ "JAVA_HOME" ] = "/usr/lib/jvm/jdk-11.0.2"
2.2 获取pyserini库,这是用python包装的anserini:
pip install pyserini==0.8.1.0
我们可以从头开始构建 COVID-19 数据集的 lucene 索引,或者获取预先构建的索引之一。使用段落索引对文章的每个段落进行索引(已将索引作为数据集上传以供使用),可以从以下位置下载:链接。
from pyserini . search import pysearch
COVID_INDEX = 'the directory name of the index you downloaded from the above link'
索引是根据与标题和摘要合并的每个段落完成的。给定一篇 ID 为 doc_id 的文章,索引如下:
2.3 尝试一下这个例子!
python project/retrieval.py
您可以通过pip
安装或使用源代码来使用我们的软件包。
pip install caireCovid
在这个系统中,我们通过两个 QA 模型的集合构建了 QA 模块,这两个模型是在 SQuAD 上微调的 BioBERT 模型,以及我们向 MRQA@EMNLP 2019 提交的 MRQA 模型。
本项目中使用的 MRQA 模型和导出的 BioBERT 模型可以通过此链接下载。
如果您想在工作中使用我们的 MRQA 模型,请引用以下论文。 bibtex 列出如下:
@inproceedings{su2019概括, title={通过预训练语言模型微调泛化问答系统}, 作者={Su、Dan 和 Xu、Yan 和 Winata、Genta Indra 和 Xu、Peng 和 Kim、Hyeondey 和 Liu、Zihan 和 Fung、Pascale}, booktitle={第二届机器阅读问答研讨会论文集}, 页数={203--211}, 年={2019} }
我们提供了示例脚本,而您需要更改project/qa.py
中 QA 模型的路径。请注意,最终输出已经根据重新排名分数重新排名。
python project/qa.py
关键词高亮主要通过术语匹配来实现,代码可以在src/covidQA/highlights.py
中找到。
您可以通过pip
安装或使用源代码来使用我们的软件包。
pip install covidSumm
我们提供了用于抽象和提取摘要的示例脚本。
python project/abstractive_summarization.py
python project/extractive_summarization.py