Sistem berbasis pembelajaran mesin yang menggunakan teknik penjawab pertanyaan (QA) pemrosesan bahasa alami (NLP) yang canggih dikombinasikan dengan ringkasan untuk menggali literatur ilmiah yang tersedia
Jika Anda menggunakan kode sumber atau kumpulan data apa pun yang disertakan dalam toolkit ini dalam pekerjaan Anda, harap kutip makalah berikut. Bibtexnya tercantum di bawah ini:
@inproceedings{su2020caire, title={CAiRE-COVID: Sistem Peringkasan Multi-Dokumen yang Menjawab Pertanyaan dan Berfokus pada Kueri untuk Manajemen Informasi Ilmiah COVID-19}, penulis={Su, Dan dan Xu, Yan dan Yu, Tiezheng dan Siddique, Farhad Bin dan Barezi, Elham dan Fung, Pascale}, booktitle={Prosiding Workshop NLP untuk COVID-19 ke-1 (Bagian 2) di EMNLP 2020}, tahun={2020} }
Kami mempersembahkan CAiRE-COVID, sistem penjawab pertanyaan (QA) real-time dan peringkasan multi-dokumen, yang memenangkan salah satu dari 10 tugas dalam Kaggle COVID-19 Open Research Dataset Challenge, yang dinilai oleh para ahli medis. Sistem kami bertujuan untuk mengatasi tantangan terkini dalam menggali berbagai artikel ilmiah yang diterbitkan tentang COVID-19 dengan menjawab pertanyaan-pertanyaan berprioritas tinggi dari komunitas dan merangkum informasi penting terkait pertanyaan. Ini menggabungkan ekstraksi informasi dengan QA yang canggih dan teknik peringkasan multi-dokumen yang berfokus pada kueri, memilih dan menyorot cuplikan bukti dari literatur yang ada berdasarkan kueri. Kami juga mengusulkan metode peringkasan multi-dokumen abstraktif dan ekstraktif yang berfokus pada kueri, untuk memberikan informasi yang lebih relevan terkait pertanyaan tersebut. Kami selanjutnya melakukan eksperimen kuantitatif yang menunjukkan peningkatan konsisten pada berbagai metrik untuk setiap modul. Kami telah meluncurkan situs web kami CAiRE-COVID untuk penggunaan yang lebih luas oleh komunitas medis, dan telah membuat kode sumber terbuka untuk sistem kami, untuk melakukan studi lebih lanjut oleh penelitian lain.
Saat ini sistem CAiRE-COVID telah diluncurkan secara online. Silakan akses sistem melalui http://caire.ust.hk/covid.
Kami merasa terhormat untuk diberitahu bahwa pengajuan kami menang sebagai respon terbaik untuk tugas ini. Apa yang telah dipublikasikan tentang berbagi informasi dan kolaborasi antarsektor?
pip install -r requirements.txt
Jika Anda tertarik untuk mencoba sendiri modul sistem, Anda dapat memanfaatkan modul sistem dengan cara berikut:
1. Parafrase Kueri
Untuk bagian ini, Anda dapat menerapkan metode Anda sendiri atau lewati langkah ini jika pertanyaan Anda relatif singkat dan sederhana atau Anda tidak sesuai dengan kinerja SOTA. 2. Mesin Pencari 2.1 menginstal dependensi Python dan indeks yang sudah dibuat sebelumnya
Mengikuti pengambilan informasi lucene+answerini seperti yang dijelaskan di: https://github.com/castorini/anserini/blob/master/docs/experiments-covid.md, siapkan JAVA SDK 11 terlebih dahulu:
curl -O https://download.java.net/java/GA/jdk11/9/GPL/openjdk-11.0.2_linux-x64_bin.tar.gz
mv openjdk-11.0.2_linux-x64_bin.tar.gz /usr/lib/jvm/; cd /usr/lib/jvm/; tar -zxvf openjdk-11.0.2_linux-x64_bin.tar.gz
update-alternatives --install /usr/bin/java java /usr/lib/jvm/jdk-11.0.2/bin/java 1
update-alternatives --set java /usr/lib/jvm/jdk-11.0.2/bin/java
import os
os . environ [ "JAVA_HOME" ] = "/usr/lib/jvm/jdk-11.0.2"
2.2 Dapatkan perpustakaan pyserini, yang merupakan anserini yang dibungkus dengan python:
pip install pyserini==0.8.1.0
Kita dapat membuat indeks lucene kumpulan data COVID-19 dari awal, atau mendapatkan salah satu indeks yang sudah dibuat sebelumnya. Menggunakan pengindeksan paragraf yang mengindeks setiap paragraf artikel (sudah mengunggah indeks sebagai dataset untuk digunakan), dapat diunduh dari: link.
from pyserini . search import pysearch
COVID_INDEX = 'the directory name of the index you downloaded from the above link'
Pengindeksan dilakukan berdasarkan setiap paragraf yang digabungkan dengan judul dan abstrak. Diberikan artikel dengan id doc_id, indeksnya adalah sebagai berikut:
2.3 Coba berikan contohnya!
python project/retrieval.py
Anda dapat menggunakan paket kami dengan menginstal dengan pip
atau menggunakan kode sumber.
pip install caireCovid
Dalam sistem ini, kami membangun modul QA dengan menggabungkan dua model QA, yaitu model BioBERT yang disempurnakan pada SQuAD, dan model MRQA yang kami kirimkan ke MRQA@EMNLP 2019.
Model MRQA dan model BioBERT yang diekspor yang digunakan dalam proyek ini dapat diunduh melalui tautan ini.
Jika Anda ingin menggunakan model MRQA kami dalam pekerjaan Anda, silakan kutip makalah berikut. Bibtexnya tercantum di bawah ini:
@inproceedings{su2019menggeneralisasi, title={Menggeneralisasi Sistem Jawaban Pertanyaan dengan Penyempurnaan Model Bahasa yang telah dilatih sebelumnya}, author={Su, Dan dan Xu, Yan dan Winata, Genta Indra dan Xu, Peng dan Kim, Hyeondey dan Liu, Zihan dan Fung, Pascale}, booktitle={Prosiding Workshop 2 Membaca Mesin untuk Menjawab Soal}, halaman={203--211}, tahun={2019} }
Kami menyediakan contoh skrip, sementara Anda perlu mengubah jalur ke model QA di project/qa.py
. Perhatikan bahwa hasil akhir sudah diurutkan ulang berdasarkan skor pemeringkatan ulang.
python project/qa.py
Penyorotan kata kunci terutama diterapkan dengan pencocokan istilah, yang kodenya dapat ditemukan di src/covidQA/highlights.py
.
Anda dapat menggunakan paket kami dengan menginstal dengan pip
atau menggunakan kode sumber.
pip install covidSumm
Kami menyediakan contoh skrip untuk peringkasan abstraktif dan ekstraktif.
python project/abstractive_summarization.py
python project/extractive_summarization.py