Ein auf maschinellem Lernen basierendes System, das modernste Frage-Antwort-Techniken (QA) zur Verarbeitung natürlicher Sprache (NLP) in Kombination mit Zusammenfassungen verwendet, um die verfügbare wissenschaftliche Literatur zu durchsuchen
Wenn Sie in Ihrer Arbeit Quellcodes oder Datensätze aus diesem Toolkit verwenden, zitieren Sie bitte das folgende Dokument. Der Bibtex ist unten aufgeführt:
@inproceedings{su2020caire, title={CAiRE-COVID: Ein auf Fragenbeantwortung und Abfragen ausgerichtetes System zur Zusammenfassung mehrerer Dokumente für das wissenschaftliche Informationsmanagement zu COVID-19}, Autor={Su, Dan und Xu, Yan und Yu, Tiezheng und Siddique, Farhad Bin und Barezi, Elham und Fung, Pascale}, booktitle={Vorträge des 1. Workshops zu NLP für COVID-19 (Teil 2) bei EMNLP 2020}, Jahr={2020} }
Wir präsentieren CAiRE-COVID, ein System zur Echtzeit-Fragebeantwortung (QA) und Zusammenfassung mehrerer Dokumente, das eine der 10 Aufgaben der Kaggle COVID-19 Open Research Dataset Challenge gewonnen hat, die von medizinischen Experten bewertet wurde. Unser System zielt darauf ab, die aktuelle Herausforderung zu bewältigen, die zahlreichen wissenschaftlichen Artikel, die zu COVID-19 veröffentlicht werden, zu analysieren, indem es Fragen mit hoher Priorität aus der Community beantwortet und wichtige fragebezogene Informationen zusammenfasst. Es kombiniert die Informationsextraktion mit modernster Qualitätssicherung und abfrageorientierten Techniken zur Zusammenfassung mehrerer Dokumente und wählt bei einer Abfrage Beweisausschnitte aus vorhandener Literatur aus und hebt sie hervor. Wir schlagen außerdem abfrageorientierte abstrakte und extraktive Methoden zur Zusammenfassung mehrerer Dokumente vor, um relevantere Informationen im Zusammenhang mit der Frage bereitzustellen. Darüber hinaus führen wir quantitative Experimente durch, die konsistente Verbesserungen bei verschiedenen Metriken für jedes Modul zeigen. Wir haben unsere Website CAiRE-COVID für eine breitere Nutzung durch die medizinische Gemeinschaft gestartet und den Code für unser System als Open-Source-Lösung bereitgestellt, um weitere Studien durch andere Forscher voranzutreiben.
Derzeit ist das CAiRE-COVID-System bereits online gestartet. Bitte greifen Sie über http://caire.ust.hk/covid auf das System zu.
Es ist uns eine Ehre, mitgeteilt zu bekommen, dass unser Beitrag als beste Antwort für die Aufgabe gewonnen hat. Was wurde zum Thema Informationsaustausch und intersektorale Zusammenarbeit veröffentlicht?
pip install -r requirements.txt
Wenn Sie Interesse daran haben, die Systemmodule selbst auszuprobieren, können Sie das Systemmodul auf folgende Weise nutzen:
1. Paraphrasierung von Abfragen
Für diesen Teil können Sie Ihre eigenen Methoden implementieren oder diesen Schritt überspringen, wenn Ihre Abfragen relativ kurz und einfach sind oder Sie nicht an der SOTA-Leistung interessiert sind. 2. Search Engine 2.1 installiert Python-Abhängigkeiten und einen vorgefertigten Index
Richten Sie nach dem Abrufen von Lucene+Answerini-Informationen, wie unter https://github.com/castorini/anserini/blob/master/docs/experiments-covid.md beschrieben, zunächst JAVA SDK 11 ein:
curl -O https://download.java.net/java/GA/jdk11/9/GPL/openjdk-11.0.2_linux-x64_bin.tar.gz
mv openjdk-11.0.2_linux-x64_bin.tar.gz /usr/lib/jvm/; cd /usr/lib/jvm/; tar -zxvf openjdk-11.0.2_linux-x64_bin.tar.gz
update-alternatives --install /usr/bin/java java /usr/lib/jvm/jdk-11.0.2/bin/java 1
update-alternatives --set java /usr/lib/jvm/jdk-11.0.2/bin/java
import os
os . environ [ "JAVA_HOME" ] = "/usr/lib/jvm/jdk-11.0.2"
2.2 Holen Sie sich die Pyserini-Bibliothek, die mit Python umwickelt ist:
pip install pyserini==0.8.1.0
Wir können den Lucene-Index des COVID-19-Datensatzes von Grund auf erstellen oder einen der vorgefertigten Indizes erhalten. Die Verwendung der Absatzindizierung, die jeden Absatz eines Artikels indiziert (der Index wurde bereits als zu verwendender Datensatz hochgeladen), kann heruntergeladen werden unter: Link.
from pyserini . search import pysearch
COVID_INDEX = 'the directory name of the index you downloaded from the above link'
Die Indizierung erfolgt auf der Grundlage jedes einzelnen Absatzes, der mit dem Titel und der Zusammenfassung zusammengeführt wird. Bei einem Artikel mit der ID doc_id sieht der Index wie folgt aus:
2.3 Probieren Sie das Beispiel aus!
python project/retrieval.py
Sie können unser Paket verwenden, indem Sie es mit pip
installieren oder den Quellcode verwenden.
pip install caireCovid
In diesem System erstellen wir QA-Module durch ein Ensemble aus zwei QA-Modellen, nämlich dem BioBERT-Modell, das auf SQuAD abgestimmt ist, und dem MRQA-Modell, das wir bei MRQA@EMNLP 2019 eingereicht haben.
Das MRQA-Modell und das exportierte BioBERT-Modell, die in diesem Projekt verwendet werden, können über diesen Link heruntergeladen werden.
Wenn Sie unser MRQA-Modell in Ihrer Arbeit verwenden möchten, zitieren Sie bitte das folgende Dokument. Der Bibtex ist unten aufgeführt:
@inproceedings{su2019generalizing, title={Verallgemeinerung des Frage-Antwort-Systems mit Feinabstimmung des vorab trainierten Sprachmodells}, Autor={Su, Dan und Xu, Yan und Winata, Genta Indra und Xu, Peng und Kim, Hyeondey und Liu, Zihan und Fung, Pascale}, booktitle={Proceedings of the 2nd Workshop on Machine Reading for Question Answering}, Seiten={203--211}, Jahr={2019} }
Wir stellen das Beispielskript bereit, während Sie die Pfade zu den QA-Modellen in project/qa.py
ändern müssen. Beachten Sie, dass die endgültige Ausgabe bereits basierend auf der Neubewertungspunktzahl neu eingestuft wird.
python project/qa.py
Die Schlüsselworthervorhebung wird hauptsächlich durch Begriffsabgleich implementiert, dessen Code in src/covidQA/highlights.py
zu finden ist.
Sie können unser Paket verwenden, indem Sie es mit pip
installieren oder den Quellcode verwenden.
pip install covidSumm
Wir stellen die Beispielskripte sowohl für die abstrakte als auch für die extraktive Zusammenfassung bereit.
python project/abstractive_summarization.py
python project/extractive_summarization.py