Um sistema baseado em aprendizado de máquina que usa técnicas de resposta a perguntas (QA) de processamento de linguagem natural (PNL) de última geração combinadas com resumo para extrair a literatura científica disponível
Se você usar algum código-fonte ou conjunto de dados incluído neste kit de ferramentas em seu trabalho, cite o artigo a seguir. O bibtex está listado abaixo:
@inproceedings{su2020caire, title = {CAiRE-COVID: um sistema de resumo de vários documentos com resposta a perguntas e foco em consultas para gerenciamento de informações acadêmicas sobre COVID-19}, autor={Su, Dan e Xu, Yan e Yu, Tiezheng e Siddique, Farhad Bin e Barezi, Elham e Fung, Pascale}, booktitle={Anais do 1º Workshop de PNL para COVID-19 (Parte 2) no EMNLP 2020}, ano={2020} }
Apresentamos o CAiRE-COVID, um sistema de resposta a perguntas (QA) em tempo real e resumo de vários documentos, que venceu uma das 10 tarefas do Kaggle COVID-19 Open Research Dataset Challenge, julgado por especialistas médicos. Nosso sistema visa enfrentar o recente desafio de explorar os numerosos artigos científicos publicados sobre a COVID-19, respondendo a perguntas de alta prioridade da comunidade e resumindo informações relevantes relacionadas a perguntas. Ele combina a extração de informações com controle de qualidade de última geração e técnicas de resumo de vários documentos com foco em consultas, selecionando e destacando trechos de evidências da literatura existente a partir de uma consulta. Também propomos métodos de resumo multidocumentos abstrativos e extrativos focados em consultas, para fornecer informações mais relevantes relacionadas à questão. Além disso, conduzimos experimentos quantitativos que mostram melhorias consistentes em diversas métricas para cada módulo. Lançamos nosso site CAiRE-COVID para uso mais amplo pela comunidade médica e abrimos o código do nosso sistema para iniciar estudos adicionais por outras pesquisas.
Atualmente o sistema CAiRE-COVID já foi lançado online. Acesse o sistema em http://caire.ust.hk/covid.
Estamos honrados por sermos informados de que a nossa submissão ganhou como a melhor resposta para a tarefa. O que foi publicado sobre partilha de informação e colaboração intersectorial?
pip install -r requirements.txt
Se você estiver interessado em experimentar os módulos do sistema, poderá utilizar o módulo do sistema pelos seguintes métodos:
1. Paráfrase de consulta
Para esta parte, você pode implementar seus próprios métodos ou pular esta etapa se suas consultas forem relativamente curtas e simples ou se você não buscar o desempenho SOTA. 2. Search Engine 2.1 instala dependências Python e índice pré-construído
Seguindo a recuperação de informações lucene+answerini conforme descrito em: https://github.com/castorini/anserini/blob/master/docs/experiments-covid.md, configure primeiro o JAVA SDK 11:
curl -O https://download.java.net/java/GA/jdk11/9/GPL/openjdk-11.0.2_linux-x64_bin.tar.gz
mv openjdk-11.0.2_linux-x64_bin.tar.gz /usr/lib/jvm/; cd /usr/lib/jvm/; tar -zxvf openjdk-11.0.2_linux-x64_bin.tar.gz
update-alternatives --install /usr/bin/java java /usr/lib/jvm/jdk-11.0.2/bin/java 1
update-alternatives --set java /usr/lib/jvm/jdk-11.0.2/bin/java
import os
os . environ [ "JAVA_HOME" ] = "/usr/lib/jvm/jdk-11.0.2"
2.2 Obtenha a biblioteca pyserini, que é anserini encapsulada em python:
pip install pyserini==0.8.1.0
Podemos construir o índice lucene do conjunto de dados COVID-19 do zero ou obter um dos índices pré-construídos. Usando a indexação de parágrafo que indexa cada parágrafo de um artigo (já carregado o índice como um conjunto de dados para usar), pode ser baixado em: link.
from pyserini . search import pysearch
COVID_INDEX = 'the directory name of the index you downloaded from the above link'
A indexação é feita com base em cada parágrafo mesclado com o título e resumo. Dado um artigo com id doc_id, o índice será o seguinte:
2.3 Experimente o exemplo!
python project/retrieval.py
Você pode usar nosso pacote instalando com pip
ou usando o código fonte.
pip install caireCovid
Neste sistema, construímos módulos de controle de qualidade por meio de um conjunto de dois modelos de controle de qualidade, que são o modelo BioBERT, ajustado no SQuAD, e o modelo MRQA, que é nosso envio ao MRQA@EMNLP 2019.
O modelo MRQA e o modelo BioBERT exportado utilizados neste projeto podem ser baixados neste link.
Se você quiser usar nosso modelo MRQA em seu trabalho, cite o artigo a seguir. O bibtex está listado abaixo:
@inproceedings{su2019generalizando, title = {Generalizando o sistema de resposta a perguntas com ajuste fino do modelo de linguagem pré-treinado}, autor={Su, Dan e Xu, Yan e Winata, Genta Indra e Xu, Peng e Kim, Hyeondey e Liu, Zihan e Fung, Pascale}, booktitle={Proceedings of the 2nd Workshop on Machine Reading for Question Answering}, páginas={203--211}, ano={2019} }
Fornecemos o script de exemplo, enquanto você precisa alterar os caminhos para os modelos de controle de qualidade em project/qa.py
. Observe que o resultado final já foi reclassificado com base na pontuação de reclassificação.
python project/qa.py
O destaque de palavras-chave é implementado principalmente por correspondência de termos, cujo código pode ser encontrado em src/covidQA/highlights.py
.
Você pode usar nosso pacote instalando com pip
ou usando o código fonte.
pip install covidSumm
Fornecemos scripts de exemplo para resumo abstrativo e extrativo.
python project/abstractive_summarization.py
python project/extractive_summarization.py