Un système basé sur l'apprentissage automatique qui utilise des techniques de pointe de traitement du langage naturel (NLP) de réponse aux questions (AQ) combinées à une synthèse pour explorer la littérature scientifique disponible.
Si vous utilisez des codes sources ou des ensembles de données inclus dans cette boîte à outils dans votre travail, veuillez citer l'article suivant. Le bibtex est répertorié ci-dessous :
@inproceedings{su2020caire, title={CAiRE-COVID : Un système de réponse aux questions et de synthèse multi-documents axé sur les requêtes pour la gestion de l'information scientifique COVID-19}, author={Su, Dan et Xu, Yan et Yu, Tiezheng et Siddique, Farhad Bin et Barezi, Elham et Fung, Pascale}, booktitle={Actes du 1er atelier sur la PNL pour le COVID-19 (partie 2) à l'EMNLP 2020}, année={2020} }
Nous présentons CAiRE-COVID, un système de réponse aux questions (AQ) en temps réel et de synthèse multi-documents, qui a remporté l'une des 10 tâches du Kaggle COVID-19 Open Research Dataset Challenge, jugé par des experts médicaux. Notre système vise à relever le défi récent consistant à exploiter les nombreux articles scientifiques publiés sur le COVID-19 en répondant aux questions hautement prioritaires de la communauté et en résumant les informations importantes liées aux questions. Il combine l'extraction d'informations avec des techniques de pointe d'assurance qualité et de synthèse multi-documents axées sur les requêtes, sélectionnant et mettant en évidence des extraits de preuves de la littérature existante en fonction d'une requête. Nous proposons également des méthodes de synthèse multi-documents abstraites et extractives axées sur les requêtes, afin de fournir des informations plus pertinentes liées à la question. Nous menons en outre des expériences quantitatives qui montrent des améliorations constantes sur diverses mesures pour chaque module. Nous avons lancé notre site Web CAiRE-COVID pour une utilisation plus large par la communauté médicale, et avons rendu le code de notre système open source, afin d'amorcer des études plus approfondies par d'autres recherches.
Actuellement, le système CAiRE-COVID a déjà été lancé en ligne. Veuillez accéder au système par http://caire.ust.hk/covid.
Nous sommes honorés d'être informés que notre soumission a été sélectionnée comme la meilleure réponse à la tâche. Qu'a été publié sur le partage d'informations et la collaboration intersectorielle ?
pip install -r requirements.txt
Si vous souhaitez essayer les modules système vous-même, vous pouvez utiliser le module système par les méthodes suivantes :
1. Paraphrase de requête
Pour cette partie, vous pouvez implémenter vos propres méthodes ou ignorer cette étape si vos requêtes sont relativement courtes et simples ou si vous ne recherchez pas les performances SOTA. 2. Search Engine 2.1 installe les dépendances Python et l'index prédéfini
Après la récupération des informations lucene+answerini comme décrit dans : https://github.com/castorini/anserini/blob/master/docs/experiments-covid.md, configurez d'abord JAVA sdk 11 :
curl -O https://download.java.net/java/GA/jdk11/9/GPL/openjdk-11.0.2_linux-x64_bin.tar.gz
mv openjdk-11.0.2_linux-x64_bin.tar.gz /usr/lib/jvm/; cd /usr/lib/jvm/; tar -zxvf openjdk-11.0.2_linux-x64_bin.tar.gz
update-alternatives --install /usr/bin/java java /usr/lib/jvm/jdk-11.0.2/bin/java 1
update-alternatives --set java /usr/lib/jvm/jdk-11.0.2/bin/java
import os
os . environ [ "JAVA_HOME" ] = "/usr/lib/jvm/jdk-11.0.2"
2.2 Obtenez la bibliothèque pyserini, qui est enveloppée dans anserini avec python :
pip install pyserini==0.8.1.0
Nous pouvons créer l’index Lucene de l’ensemble de données COVID-19 à partir de zéro, ou obtenir l’un des index prédéfinis. L'utilisation de l'indexation de paragraphe qui indexe chaque paragraphe d'un article (déjà téléchargé l'index en tant qu'ensemble de données à utiliser), peut être téléchargée à partir de : lien.
from pyserini . search import pysearch
COVID_INDEX = 'the directory name of the index you downloaded from the above link'
L'indexation se fait sur la base de chaque paragraphe fusionné avec le titre et le résumé. Étant donné un article avec l'identifiant doc_id, l'index sera le suivant :
2.3 Essayez l'exemple !
python project/retrieval.py
Vous pouvez utiliser notre package en installant avec pip
ou en utilisant le code source.
pip install caireCovid
Dans ce système, nous construisons des modules d'AQ à partir d'un ensemble de deux modèles d'AQ, qui sont le modèle BioBERT qui a été affiné sur SQuAD et le modèle MRQA qui est notre soumission à MRQA@EMNLP 2019.
Le modèle MRQA et le modèle BioBERT exporté qui sont utilisés dans ce projet peuvent être téléchargés via ce lien.
Si vous souhaitez utiliser notre modèle MRQA dans votre travail, veuillez citer l'article suivant. Le bibtex est répertorié ci-dessous :
@inproceedings{su2019généralisant, title={Généralisation du système de questions-réponses avec ajustement précis du modèle linguistique pré-entraîné}, author={Su, Dan et Xu, Yan et Winata, Genta Indra et Xu, Peng et Kim, Hyeondey et Liu, Zihan et Fung, Pascale}, booktitle={Actes du 2e atelier sur la lecture automatique pour la réponse aux questions}, pages={203--211}, année={2019} }
Nous fournissons l'exemple de script, tandis que vous devez modifier les chemins d'accès aux modèles d'assurance qualité dans project/qa.py
. Notez que le résultat final est déjà reclassé en fonction du score de reclassement.
python project/qa.py
La mise en évidence des mots clés est principalement mise en œuvre par la mise en correspondance de termes, dont le code se trouve dans src/covidQA/highlights.py
.
Vous pouvez utiliser notre package en installant avec pip
ou en utilisant le code source.
pip install covidSumm
Nous fournissons des exemples de scripts pour la synthèse abstraite et extractive.
python project/abstractive_summarization.py
python project/extractive_summarization.py