最先端の自然言語処理 (NLP) 質問応答 (QA) 技術と、利用可能な科学文献をマイニングするための要約を組み合わせた機械学習ベースのシステム
このツールキットに含まれるソース コードまたはデータセットを仕事で使用する場合は、次の論文を引用してください。ビブテックスは以下のとおりです。
@inproceedings{su2020caire、 title={CAiRE-COVID: 新型コロナウイルス感染症の学術情報管理のための質問応答およびクエリ中心の複数文書要約システム}, author={スー、ダンとシュー、ヤンとユウ、ティジェンとシディク、ファルハド ビンとバレージ、エルハムとフォン、パスカル}、 booktitle={EMNLP 2020 での第 1 回 新型コロナウイルス感染症に対する NLP ワークショップ (パート 2) の議事録}, 年={2020} }
私たちは、リアルタイムの質問応答 (QA) および複数文書要約システムである CAiRE-COVID を紹介します。このシステムは、医療専門家によって審査された Kaggle COVID-19 オープン リサーチ データセット チャレンジの 10 タスクのうちの 1 つを受賞しました。私たちのシステムは、コミュニティからの優先度の高い質問に答え、重要な質問に関連する情報を要約することで、新型コロナウイルス感染症に関して出版されている多数の科学論文をマイニングするという最近の課題に取り組むことを目的としています。情報抽出と最先端の QA およびクエリに焦点を当てた複数文書要約技術を組み合わせ、クエリが与えられた既存の文献から証拠の断片を選択して強調表示します。また、質問に関連したより適切な情報を提供するために、クエリに焦点を当てた抽象的および抽出的な複数文書の要約方法も提案します。さらに、各モジュールのさまざまな指標で一貫した改善を示す定量的な実験を実施します。私たちは医学界での幅広い利用を目的として Web サイト CAiRE-COVID を立ち上げ、他の研究者によるさらなる研究を促進するためにシステムのコードをオープンソース化しました。
現在、CAiRE-COVID システムはすでにオンラインで開始されています。 http://caire.ust.hk/covid からシステムにアクセスしてください。
私たちの提案がこのタスクに対する最良の回答として選ばれたことをお知らせできて光栄です。 情報共有と部門間の協力については何が発表されましたか?
pip install -r requirements.txt
システム モジュールを自分で試してみたい場合は、次の方法でシステム モジュールを利用できます。
1. クエリの言い換え
この部分では、独自のメソッドを実装することも、クエリが比較的短く単純な場合、または SOTA パフォーマンスを追求しない場合は、このステップをスキップすることもできます。 2. 検索エンジン2.1 の Python 依存関係と事前構築されたインデックスのインストール
https://github.com/castorini/anserini/blob/master/docs/experiments-covid.md で説明されている lucene+answerini 情報の取得に続いて、最初に JAVA SDK 11 をセットアップします。
curl -O https://download.java.net/java/GA/jdk11/9/GPL/openjdk-11.0.2_linux-x64_bin.tar.gz
mv openjdk-11.0.2_linux-x64_bin.tar.gz /usr/lib/jvm/; cd /usr/lib/jvm/; tar -zxvf openjdk-11.0.2_linux-x64_bin.tar.gz
update-alternatives --install /usr/bin/java java /usr/lib/jvm/jdk-11.0.2/bin/java 1
update-alternatives --set java /usr/lib/jvm/jdk-11.0.2/bin/java
import os
os . environ [ "JAVA_HOME" ] = "/usr/lib/jvm/jdk-11.0.2"
2.2 pyserini ライブラリ (anserini を Python でラップしたもの) を取得します。
pip install pyserini==0.8.1.0
COVID-19 データセットの lucene インデックスを最初から構築することも、事前に構築されたインデックスの 1 つを取得することもできます。記事の各段落にインデックスを付ける段落インデックスの使用 (使用するデータセットとしてインデックスがアップロード済み) は、リンクからダウンロードできます。
from pyserini . search import pysearch
COVID_INDEX = 'the directory name of the index you downloaded from the above link'
インデックス付けは、タイトルと要約が結合された各段落に基づいて行われます。 ID が doc_id の記事の場合、インデックスは次のようになります。
2.3 例を試してみましょう!
python project/retrieval.py
pip
でインストールするか、ソース コードを使用してパッケージを使用できます。
pip install caireCovid
本システムでは、SQuAD上で微調整したBioBERTモデルと、MRQA@EMNLP 2019に提出したMRQAモデルの2つのQAモデルをアンサンブルしてQAモジュールを構築します。
このプロジェクトで使用される MRQA モデルとエクスポートされた BioBERT モデルは、このリンクからダウンロードできます。
MRQA モデルを業務で使用したい場合は、次の論文を引用してください。ビブテックスは以下のとおりです。
@inproceedings{su2019一般化、 title={事前トレーニングされた言語モデルの微調整による質問応答システムの一般化}, author={スー、ダンとシュー、ヤンとウィナタ、ゲンタ インドラとシュー、ペンとキム、ヒョンデイとリウ、ジハンとフォン、パスカル}、 booktitle={第 2 回質問応答のための機械読取に関するワークショップの議事録}, ページ={203--211}、 年={2019} }
サンプル スクリプトが提供されていますが、 project/qa.py
内の QA モデルへのパスを変更する必要があります。最終出力は、再ランキング スコアに基づいてすでに再ランク付けされていることに注意してください。
python project/qa.py
キーワードの強調表示は主に用語の一致によって実装され、そのコードはsrc/covidQA/highlights.py
にあります。
pip
でインストールするか、ソース コードを使用してパッケージを使用できます。
pip install covidSumm
抽象的要約と抽出的要約の両方のサンプル スクリプトを提供します。
python project/abstractive_summarization.py
python project/extractive_summarization.py