ระบบการเรียนรู้ของเครื่องที่ใช้เทคนิคการตอบคำถาม (QA) การประมวลผลภาษาธรรมชาติ (NLP) ที่ทันสมัย รวมกับการสรุปสำหรับการขุดวรรณกรรมทางวิทยาศาสตร์ที่มีอยู่
หากคุณใช้ซอร์สโค้ดหรือชุดข้อมูลใดๆ ที่รวมอยู่ในชุดเครื่องมือนี้ในงานของคุณ โปรดอ้างอิงเอกสารต่อไปนี้ bibtex มีดังต่อไปนี้:
@อยู่ระหว่างดำเนินการ{su2020caire, title={CAiRE-COVID: การตอบคำถามและระบบสรุปหลายเอกสารที่เน้นการสืบค้นสำหรับการจัดการข้อมูลทางวิชาการเกี่ยวกับโควิด-19}, ผู้แต่ง={ซู, ตันและซู, หยานและหยู, เถี่ยเจิ้งและซิดดิก, ฟาร์ฮัด บินและบาเรซี, เอลฮัมและฟุง, ปาสกาล}, booktitle={การประชุมเชิงปฏิบัติการเรื่อง NLP สำหรับโควิด-19 ครั้งที่ 1 (ตอนที่ 2) ที่ EMNLP 2020}, ปี={2020} -
เรานำเสนอ CAiRE-COVID ซึ่งเป็นระบบตอบคำถามแบบเรียลไทม์ (QA) และระบบสรุปผลหลายเอกสาร ซึ่งชนะหนึ่งใน 10 งานในโครงการ Kaggle COVID-19 Open Research Dataset Challenge ซึ่งตัดสินโดยผู้เชี่ยวชาญทางการแพทย์ ระบบของเรามีจุดมุ่งหมายเพื่อรับมือกับความท้าทายล่าสุดในการขุดค้นบทความทางวิทยาศาสตร์จำนวนมากที่เผยแพร่เกี่ยวกับโควิด-19 โดยการตอบคำถามที่มีลำดับความสำคัญสูงจากชุมชนและสรุปข้อมูลที่เกี่ยวข้องกับคำถามสำคัญ โดยผสมผสานการดึงข้อมูลเข้ากับ QA ที่ล้ำสมัยและเทคนิคการสรุปเอกสารหลายชุดที่เน้นการสืบค้น การเลือกและเน้นตัวอย่างหลักฐานจากวรรณกรรมที่มีอยู่เมื่อทำการสืบค้น นอกจากนี้เรายังเสนอวิธีการสรุปหลายเอกสารที่เน้นการสืบค้นและเน้นการสืบค้น เพื่อให้ข้อมูลที่เกี่ยวข้องกับคำถามมากขึ้น เรายังทำการทดลองเชิงปริมาณที่แสดงการปรับปรุงอย่างต่อเนื่องในตัวชี้วัดต่างๆ สำหรับแต่ละโมดูล เราได้เปิดตัวเว็บไซต์ CAiRE-COVID ของเราเพื่อการใช้งานในวงกว้างโดยวงการแพทย์ และได้จัดทำโค้ดแบบโอเพ่นซอร์สสำหรับระบบของเราเพื่อเริ่มต้นการศึกษาเพิ่มเติมโดยการวิจัยอื่น ๆ
ปัจจุบันระบบ CAiRE-Covid ได้เปิดตัวทางออนไลน์แล้ว กรุณาเข้าสู่ระบบโดย http://caire.ust.hk/covid
เรารู้สึกเป็นเกียรติที่ได้รับแจ้งว่าผลงานที่ส่งเข้ามาของเราได้รับการตอบรับที่ดีที่สุดสำหรับงานชิ้นนี้ มีการเผยแพร่อะไรเกี่ยวกับการแบ่งปันข้อมูลและการทำงานร่วมกันระหว่างภาคส่วนบ้าง
pip install -r requirements.txt
หากคุณสนใจที่จะทดลองใช้โมดูลระบบด้วยตัวเอง คุณสามารถใช้โมดูลระบบได้โดยวิธีการต่อไปนี้:
1. การถอดความแบบสอบถาม
สำหรับส่วนนี้ คุณสามารถใช้วิธีการของคุณเองหรือข้ามขั้นตอนนี้หากข้อความค้นหาของคุณค่อนข้างสั้นและเรียบง่าย หรือคุณไม่เหมาะสมกับประสิทธิภาพของ SOTA 2. Search Engine 2.1 ติดตั้งการพึ่งพา Python และดัชนีที่สร้างไว้ล่วงหน้า
หลังจากการดึงข้อมูล lucene+answerini ตามที่อธิบายไว้ใน: https://github.com/castorini/anserini/blob/master/docs/experiments-covid.md ให้ตั้งค่า JAVA sdk 11 ก่อน:
curl -O https://download.java.net/java/GA/jdk11/9/GPL/openjdk-11.0.2_linux-x64_bin.tar.gz
mv openjdk-11.0.2_linux-x64_bin.tar.gz /usr/lib/jvm/; cd /usr/lib/jvm/; tar -zxvf openjdk-11.0.2_linux-x64_bin.tar.gz
update-alternatives --install /usr/bin/java java /usr/lib/jvm/jdk-11.0.2/bin/java 1
update-alternatives --set java /usr/lib/jvm/jdk-11.0.2/bin/java
import os
os . environ [ "JAVA_HOME" ] = "/usr/lib/jvm/jdk-11.0.2"
2.2 รับไลบรารี pyserini ซึ่งเป็น anserini ที่ห่อด้วย python:
pip install pyserini==0.8.1.0
เราสามารถสร้างดัชนี lucene ของชุดข้อมูล COVID-19 ตั้งแต่เริ่มต้น หรือรับหนึ่งในดัชนีที่สร้างไว้ล่วงหน้า การใช้การจัดทำดัชนีย่อหน้าซึ่งจัดทำดัชนีแต่ละย่อหน้าของบทความ (อัปโหลดดัชนีเป็นชุดข้อมูลที่จะใช้แล้ว) สามารถดาวน์โหลดได้จาก: ลิงก์
from pyserini . search import pysearch
COVID_INDEX = 'the directory name of the index you downloaded from the above link'
การจัดทำดัชนีจะกระทำตามแต่ละย่อหน้าที่รวมเข้ากับชื่อเรื่องและบทคัดย่อ เมื่อระบุบทความที่มี id doc_id ดัชนีจะเป็นดังนี้:
2.3 ลองตัวอย่าง!
python project/retrieval.py
คุณสามารถใช้แพ็คเกจของเราโดยติดตั้งด้วย pip
หรือใช้ซอร์สโค้ด
pip install caireCovid
ในระบบนี้ เราสร้างโมดูล QA โดยชุด QA สองโมเดล ได้แก่ โมเดล BioBERT ที่ปรับแต่งบน SQuAD และโมเดล MRQA ซึ่งเป็นการส่งของเราไปที่ MRQA@EMNLP 2019
สามารถดาวน์โหลดแบบจำลอง MRQA และแบบจำลอง BioBERT ที่ส่งออกซึ่งใช้ในโปรเจ็กต์นี้ได้จากลิงก์นี้
หากคุณต้องการใช้แบบจำลอง MRQA ของเราในงานของคุณ โปรดอ้างอิงเอกสารต่อไปนี้ bibtex มีดังต่อไปนี้:
@อยู่ระหว่างดำเนินการ{su2019กำลังสรุป title={ระบบตอบคำถามทั่วไปพร้อมการปรับแต่งโมเดลภาษาที่ผ่านการฝึกอบรมมาแล้ว}, ผู้แต่ง={ซู, ดานและซู, หยานและวินาตะ, เกนตา อินดราและซู, เผิงและคิม, ฮยอนเตย์และหลิว, ซีฮานและฟุง, ปาสกาล}, booktitle={การประชุมเชิงปฏิบัติการเรื่องการอ่านด้วยเครื่องเพื่อการตอบคำถามครั้งที่ 2}, หน้า={203--211}, ปี={2019} -
เราจัดเตรียมสคริปต์ตัวอย่างไว้ ในขณะที่คุณต้องเปลี่ยนเส้นทางไปยังโมเดล QA ใน project/qa.py
โปรดทราบว่าผลลัพธ์สุดท้ายจะได้รับการจัดอันดับใหม่แล้วตามคะแนนการจัดอันดับใหม่
python project/qa.py
การเน้นคำหลักส่วนใหญ่จะดำเนินการโดยการจับคู่คำ ซึ่งรหัสดังกล่าวสามารถพบได้ใน src/covidQA/highlights.py
คุณสามารถใช้แพ็คเกจของเราโดยติดตั้งด้วย pip
หรือใช้ซอร์สโค้ด
pip install covidSumm
เราจัดเตรียมสคริปต์ตัวอย่างสำหรับการสรุปทั้งแบบนามธรรมและแบบแยกส่วน
python project/abstractive_summarization.py
python project/extractive_summarization.py