基於機器學習的系統,使用最先進的自然語言處理 (NLP) 問答 (QA) 技術並結合摘要來挖掘可用的科學文獻
如果您在工作中使用此工具包中包含的任何原始程式碼或資料集,請引用以下論文。 bibtex 列出如下:
@inproceedings{su2020caire, title={CAiRE-COVID:用於 COVID-19 學術資訊管理的問答和以查詢為中心的多文檔摘要係統}, 作者={Su、Dan 和 Xu、Yan 和 Yu、鐵正和 Siddique、Farhad Bin 和 Barezi、Elham 和 Fung、Pascale}, booktitle={EMNLP 2020 第一屆 NLP for COVID-19 研討會論文集(第 2 部分)}, 年={2020} }
我們推出了 CAiRE-COVID,一個即時問答 (QA) 和多重文件摘要係統,該系統贏得了由醫學專家評審的 Kaggle COVID-19 開放研究資料集挑戰賽的 10 項任務之一。我們的系統旨在透過回答社區的高優先級問題並總結與突出問題相關的信息,來應對最近挖掘有關 COVID-19 的大量科學文章的挑戰。它將資訊提取與最先進的 QA 和以查詢為中心的多文檔摘要技術相結合,根據查詢從現有文獻中選擇並突出顯示證據片段。我們也提出了以查詢為中心的抽象化和提取多文檔摘要方法,以提供與問題相關的更多相關資訊。我們進一步進行定量實驗,顯示每個模組的各種指標的持續改進。我們推出了我們的網站 CAiRE-COVID 供醫學界更廣泛使用,並開源了我們系統的程式碼,以引導其他研究人員進一步研究。
目前CAiRE-COVID系統已上線。請透過 http://caire.ust.hk/covid 存取該系統。
我們很榮幸地獲悉,我們提交的內容已成為該任務的最佳回應,關於資訊共享和部門間合作已發表哪些內容?
pip install -r requirements.txt
如果您有興趣親自嘗試系統模組,您可以透過以下方法使用系統模組:
1. 查詢釋義
對於這部分,您可以實現自己的方法,或者如果您的查詢相對較短且簡單或您不追求 SOTA 效能,則可以跳過此步驟。 2.搜尋引擎2.1安裝Python依賴與預建索引
依照https://github.com/castorini/anserini/blob/master/docs/experiments-covid.md中所述的lucene+answerini資訊檢索,首先設定JAVA sdk 11:
curl -O https://download.java.net/java/GA/jdk11/9/GPL/openjdk-11.0.2_linux-x64_bin.tar.gz
mv openjdk-11.0.2_linux-x64_bin.tar.gz /usr/lib/jvm/; cd /usr/lib/jvm/; tar -zxvf openjdk-11.0.2_linux-x64_bin.tar.gz
update-alternatives --install /usr/bin/java java /usr/lib/jvm/jdk-11.0.2/bin/java 1
update-alternatives --set java /usr/lib/jvm/jdk-11.0.2/bin/java
import os
os . environ [ "JAVA_HOME" ] = "/usr/lib/jvm/jdk-11.0.2"
2.2 取得pyserini函式庫,這是用python包裝的anserini:
pip install pyserini==0.8.1.0
我們可以從頭開始建立 COVID-19 資料集的 lucene 索引,或取得預先建立的索引之一。使用段落索引對文章的每個段落進行索引(已將索引作為資料集上傳以供使用),可以從以下位置下載:連結。
from pyserini . search import pysearch
COVID_INDEX = 'the directory name of the index you downloaded from the above link'
索引是根據與標題和摘要合併的每個段落完成的。給定一篇 ID 為 doc_id 的文章,索引如下:
2.3 試試看這個例子!
python project/retrieval.py
您可以透過pip
安裝或使用原始碼來使用我們的軟體包。
pip install caireCovid
在這個系統中,我們透過兩個 QA 模型的整合來建立 QA 模組,這兩個模型是在 SQuAD 上微調的 BioBERT 模型,以及我們向 MRQA@EMNLP 2019 提交的 MRQA 模型。
本專案中使用的 MRQA 模型和匯出的 BioBERT 模型可以透過此連結下載。
如果您想在工作中使用我們的 MRQA 模型,請引用以下論文。 bibtex 列出如下:
@inproceedings{su2019概括, title={透過預訓練語言模型微調泛化問答系統}, 作者={Su、Dan 和 Xu、Yan 和 Winata、Genta Indra 和 Xu、Peng 和 Kim、Hyeondey 和 Liu、Zihan 和 Fung、Pascale}, booktitle={第二屆機器閱讀問答研討會論文集}, 頁數={203--211}, 年={2019} }
我們提供了範例腳本,而您需要更改project/qa.py
中 QA 模型的路徑。請注意,最終輸出已根據重新排名分數重新排名。
python project/qa.py
關鍵字高亮主要透過術語匹配來實現,程式碼可以在src/covidQA/highlights.py
中找到。
您可以透過pip
安裝或使用原始碼來使用我們的軟體包。
pip install covidSumm
我們提供了用於抽象和提取摘要的範例腳本。
python project/abstractive_summarization.py
python project/extractive_summarization.py