Un sistema basado en aprendizaje automático que utiliza técnicas de respuesta a preguntas (QA) de procesamiento de lenguaje natural (NLP) de última generación combinadas con resúmenes para extraer la literatura científica disponible.
Si utiliza algún código fuente o conjunto de datos incluidos en este kit de herramientas en su trabajo, cite el siguiente documento. El bibtex se enumera a continuación:
@inproceedings{su2020caire, title={CAiRE-COVID: un sistema de respuesta a preguntas y de resumen de documentos múltiples centrado en consultas para la gestión de información académica sobre COVID-19}, autor = {Su, Dan y Xu, Yan y Yu, Tiezheng y Siddique, Farhad Bin y Barezi, Elham y Fung, Pascale}, booktitle={Actas del 1er Taller sobre PNL para COVID-19 (Parte 2) en EMNLP 2020}, año={2020} }
Presentamos CAiRE-COVID, un sistema de respuesta a preguntas (QA) y resumen de múltiples documentos en tiempo real, que ganó una de las 10 tareas en el Kaggle COVID-19 Open Research Dataset Challenge, juzgado por expertos médicos. Nuestro sistema tiene como objetivo abordar el reciente desafío de extraer los numerosos artículos científicos que se publican sobre COVID-19 respondiendo preguntas de alta prioridad de la comunidad y resumiendo información destacada relacionada con las preguntas. Combina la extracción de información con control de calidad de última generación y técnicas de resumen de múltiples documentos centradas en consultas, seleccionando y resaltando fragmentos de evidencia de la literatura existente dada una consulta. También proponemos métodos de resumen de múltiples documentos abstractivos y extractivos centrados en consultas, para proporcionar información más relevante relacionada con la pregunta. Además, realizamos experimentos cuantitativos que muestran mejoras consistentes en varias métricas para cada módulo. Hemos lanzado nuestro sitio web CAiRE-COVID para un uso más amplio por parte de la comunidad médica y hemos abierto el código de nuestro sistema para iniciar estudios adicionales por parte de otras investigaciones.
Actualmente ya se ha puesto en marcha online el sistema CAiRE-COVID. Acceda al sistema a través de http://caire.ust.hk/covid.
Nos sentimos honrados de que nuestra presentación haya ganado como la mejor respuesta para la tarea. ¿Qué se ha publicado sobre el intercambio de información y la colaboración intersectorial?
pip install -r requirements.txt
Si está interesado en probar los módulos del sistema usted mismo, puede utilizar el módulo del sistema mediante los siguientes métodos:
1. Parafraseo de consultas
Para esta parte, puede implementar sus propios métodos u omitir este paso si sus consultas son relativamente cortas y simples o si no busca el rendimiento de SOTA. 2. Search Engine 2.1 instala las dependencias de Python y el índice prediseñado
Después de la recuperación de información de lucene+answerini como se describe en: https://github.com/castorini/anserini/blob/master/docs/experiments-covid.md, primero configure JAVA SDK 11:
curl -O https://download.java.net/java/GA/jdk11/9/GPL/openjdk-11.0.2_linux-x64_bin.tar.gz
mv openjdk-11.0.2_linux-x64_bin.tar.gz /usr/lib/jvm/; cd /usr/lib/jvm/; tar -zxvf openjdk-11.0.2_linux-x64_bin.tar.gz
update-alternatives --install /usr/bin/java java /usr/lib/jvm/jdk-11.0.2/bin/java 1
update-alternatives --set java /usr/lib/jvm/jdk-11.0.2/bin/java
import os
os . environ [ "JAVA_HOME" ] = "/usr/lib/jvm/jdk-11.0.2"
2.2 Obtenga la biblioteca pyserini, que es anserini envuelta con python:
pip install pyserini==0.8.1.0
Podemos crear el índice lucene del conjunto de datos de COVID-19 desde cero u obtener uno de los índices prediseñados. El uso de la indexación de párrafos que indexa cada párrafo de un artículo (el índice ya subido como un conjunto de datos para usar), se puede descargar desde: enlace.
from pyserini . search import pysearch
COVID_INDEX = 'the directory name of the index you downloaded from the above link'
La indexación se realiza a partir de cada párrafo fusionado con el título y el resumen. Dado un artículo con id doc_id, el índice será el siguiente:
2.3 ¡Prueba el ejemplo!
python project/retrieval.py
Puede usar nuestro paquete instalándolo con pip
o usar el código fuente.
pip install caireCovid
En este sistema, creamos módulos de control de calidad mediante un conjunto de dos modelos de control de calidad, que son el modelo BioBERT que se ajustó en SQuAD y el modelo MRQA que es nuestra presentación a MRQA@EMNLP 2019.
El modelo MRQA y el modelo BioBERT exportado que se utilizan en este proyecto se pueden descargar desde este enlace.
Si desea utilizar nuestro modelo MRQA en su trabajo, cite el siguiente documento. El bibtex se enumera a continuación:
@inproceedings{su2019generalizando, title={Generalización del sistema de respuesta a preguntas con ajuste del modelo de lenguaje previamente entrenado}, autor = {Su, Dan y Xu, Yan y Winata, Genta Indra y Xu, Peng y Kim, Hyeondey y Liu, Zihan y Fung, Pascale}, booktitle={Actas del segundo taller sobre lectura automática para responder preguntas}, páginas = {203--211}, año={2019} }
Proporcionamos el script de ejemplo, mientras que usted necesita cambiar las rutas a los modelos de control de calidad en project/qa.py
. Tenga en cuenta que el resultado final ya está reclasificado según la puntuación de reclasificación.
python project/qa.py
El resaltado de palabras clave se implementa principalmente mediante la coincidencia de términos, cuyo código se puede encontrar en src/covidQA/highlights.py
.
Puede utilizar nuestro paquete instalándolo con pip
o utilizar el código fuente.
pip install covidSumm
Proporcionamos scripts de ejemplo para resúmenes tanto abstractivos como extractivos.
python project/abstractive_summarization.py
python project/extractive_summarization.py