이용 가능한 과학 문헌을 마이닝하기 위해 요약과 결합된 최첨단 자연어 처리(NLP) 질문 응답(QA) 기술을 사용하는 기계 학습 기반 시스템입니다.
이 툴킷에 포함된 소스 코드나 데이터세트를 작업에 사용하는 경우 다음 논문을 인용해 주세요. Bibtex는 다음과 같습니다.
@inproceedings{su2020caire, title={CAiRE-COVID: 코로나19 학술정보 관리를 위한 질의응답 및 질의중심 다중문서 요약 시스템}, 저자={Su, Dan 및 Xu, Yan 및 Yu, Tiezheng 및 Siddique, Farhad Bin 및 Barezi, Elham 및 Fung, Pascale}, booktitle={EMNLP 2020에서 열린 제1차 코로나19 NLP 워크숍 진행(2부)}, 연도={2020} }
캐글 코로나19 오픈리서치 데이터셋 챌린지에서 의학 전문가들이 심사한 10개 과제 중 1개 과제에 선정된 실시간 질의응답(QA) 및 다중 문서 요약 시스템인 CAiRE-COVID를 소개합니다. 우리 시스템은 커뮤니티의 최우선 질문에 답변하고 주요 질문 관련 정보를 요약하여 코로나19에 대해 출판된 수많은 과학 기사를 마이닝하는 최근 과제를 해결하는 것을 목표로 합니다. 정보 추출과 최첨단 QA 및 쿼리 중심의 다중 문서 요약 기술을 결합하여 쿼리가 제공된 기존 문헌에서 증거 조각을 선택하고 강조 표시합니다. 또한 질문과 관련된 보다 관련성 있는 정보를 제공하기 위해 쿼리 중심의 추상화 및 추출적 다중 문서 요약 방법을 제안합니다. 또한 각 모듈의 다양한 지표에 대한 지속적인 개선을 보여주는 정량적 실험을 수행합니다. 우리는 의료계의 광범위한 사용을 위해 웹사이트 CAiRE-COVID를 시작했으며, 다른 연구의 추가 연구를 부트스트랩하기 위해 우리 시스템의 코드를 오픈 소스로 공개했습니다.
현재 CAiRE-COVID 시스템은 이미 온라인으로 출시되었습니다. http://caire.ust.hk/covid를 통해 시스템에 접속하세요.
우리의 제출물이 해당 작업에 대한 최고의 응답으로 선정되었다는 소식을 전해드리게 되어 영광입니다. 정보 공유 및 부문 간 협력에 관해 어떤 내용이 출판되었습니까?
pip install -r requirements.txt
시스템 모듈을 직접 사용해 보고 싶다면 다음 방법으로 시스템 모듈을 활용할 수 있습니다.
1. 쿼리 패러프레이징
이 부분에서는 쿼리가 상대적으로 짧고 단순하거나 SOTA 성능을 추구하지 않는 경우 고유한 방법을 구현하거나 이 단계를 건너뛸 수 있습니다. 2. 검색 엔진 2.1은 Python 종속성과 사전 구축된 색인을 설치합니다.
https://github.com/castorini/anserini/blob/master/docs/experiments-covid.md에 설명된 대로 lucene+answerini 정보 검색에 따라 먼저 JAVA SDK 11을 설정합니다.
curl -O https://download.java.net/java/GA/jdk11/9/GPL/openjdk-11.0.2_linux-x64_bin.tar.gz
mv openjdk-11.0.2_linux-x64_bin.tar.gz /usr/lib/jvm/; cd /usr/lib/jvm/; tar -zxvf openjdk-11.0.2_linux-x64_bin.tar.gz
update-alternatives --install /usr/bin/java java /usr/lib/jvm/jdk-11.0.2/bin/java 1
update-alternatives --set java /usr/lib/jvm/jdk-11.0.2/bin/java
import os
os . environ [ "JAVA_HOME" ] = "/usr/lib/jvm/jdk-11.0.2"
2.2 Python으로 래핑된 anserini인 pyserini 라이브러리를 가져옵니다.
pip install pyserini==0.8.1.0
코로나19 데이터세트의 루씬 인덱스를 처음부터 구축하거나 사전 구축된 인덱스 중 하나를 얻을 수 있습니다. 기사의 각 단락을 색인화하는 단락 색인화(사용할 데이터세트로 이미 업로드된 색인)를 사용하면 다음 링크에서 다운로드할 수 있습니다.
from pyserini . search import pysearch
COVID_INDEX = 'the directory name of the index you downloaded from the above link'
색인은 제목 및 초록과 병합된 각 단락을 기준으로 수행됩니다. ID가 doc_id인 기사의 경우 색인은 다음과 같습니다.
2.3 예제를 시도해 보세요!
python project/retrieval.py
pip
로 설치하거나 소스 코드를 사용하여 패키지를 사용할 수 있습니다.
pip install caireCovid
이 시스템에서는 SQuAD에서 미세 조정된 BioBERT 모델과 MRQA@EMNLP 2019에 제출한 MRQA 모델인 두 가지 QA 모델의 앙상블로 QA 모듈을 구축합니다.
본 프로젝트에 활용된 MRQA 모델과 내보낸 BioBERT 모델은 이 링크를 통해 다운로드할 수 있습니다.
귀하의 업무에 당사의 MRQA 모델을 사용하려면 다음 논문을 인용해 주세요. Bibtex는 다음과 같습니다.
@inproceedings{su2019일반화, title={사전 훈련된 언어 모델 미세 조정을 통한 질문 응답 시스템 일반화}, 저자={Su, Dan 및 Xu, Yan 및 Winata, Genta Indra 및 Xu, Peng 및 Kim, Hyundaiy 및 Liu, Zihan 및 Fung, Pascale}, booktitle={질문답변을 위한 기계독해에 관한 제2차 워크숍 진행상황}, 페이지={203--211}, 연도={2019} }
우리는 예제 스크립트를 제공하며, project/qa.py
에서 QA 모델에 대한 경로를 변경해야 합니다. 최종 출력은 이미 순위 재지정 점수에 따라 순위가 재지정되었습니다.
python project/qa.py
키워드 강조는 주로 용어 일치를 통해 구현되며, 코드는 src/covidQA/highlights.py
에서 찾을 수 있습니다.
pip
로 설치하거나 소스 코드를 사용하여 패키지를 사용할 수 있습니다.
pip install covidSumm
우리는 추상적이고 추출적인 요약을 위한 예제 스크립트를 제공합니다.
python project/abstractive_summarization.py
python project/extractive_summarization.py