نظام قائم على التعلم الآلي يستخدم أحدث تقنيات معالجة اللغة الطبيعية (NLP) والإجابة على الأسئلة (QA) جنبًا إلى جنب مع التلخيص لاستخراج المؤلفات العلمية المتاحة
إذا كنت تستخدم أي رموز مصدر أو مجموعات بيانات مضمنة في مجموعة الأدوات هذه في عملك، فيرجى الاستشهاد بالمقالة التالية. Bibtex مدرج أدناه:
@inproceedings{su2020caire, title={CAiRE-COVID: نظام تلخيص متعدد المستندات للإجابة على الأسئلة يركز على الاستعلام لإدارة المعلومات العلمية لـCOVID-19}, المؤلف={سو، دان وشو، يان ويو، تيزنغ وصديق، فرهاد بن وباريزي، إلهام وفونغ، باسكال}، booktitle={وقائع ورشة العمل الأولى حول البرمجة اللغوية العصبية لكوفيد-19 (الجزء 2) في EMNLP 2020}, العام={2020} }
نقدم CAiRE-COVID، وهو نظام للإجابة على الأسئلة في الوقت الفعلي (QA) ونظام تلخيص متعدد المستندات، والذي فاز بواحدة من 10 مهام في تحدي Kaggle COVID-19 Open Research Dataset، الذي تم تحكيمه من قبل خبراء طبيين. يهدف نظامنا إلى مواجهة التحدي الأخير المتمثل في استخراج المقالات العلمية العديدة التي يتم نشرها حول فيروس كورونا (COVID-19) من خلال الإجابة على الأسئلة ذات الأولوية العالية من المجتمع وتلخيص المعلومات البارزة المتعلقة بالأسئلة. فهو يجمع بين استخراج المعلومات وأحدث تقنيات ضمان الجودة وتقنيات تلخيص المستندات المتعددة التي تركز على الاستعلام، واختيار وتسليط الضوء على مقتطفات الأدلة من الأدبيات الموجودة عند تقديم استعلام. نقترح أيضًا أساليب تلخيص متعددة المستندات مجردة واستخراجية تركز على الاستعلام، لتوفير المزيد من المعلومات ذات الصلة بالسؤال. نقوم أيضًا بإجراء تجارب كمية تُظهر تحسينات متسقة على المقاييس المختلفة لكل وحدة. لقد أطلقنا موقعنا الإلكتروني CAiRE-COVID للاستخدام على نطاق أوسع من قبل المجتمع الطبي، وقمنا بفتح الكود الخاص بنظامنا، لبدء المزيد من الدراسة من خلال أبحاث أخرى.
حاليًا، تم إطلاق نظام CAiRE-COVID عبر الإنترنت. يرجى الوصول إلى النظام عن طريق http://caire.ust.hk/covid.
يشرفنا أن نعلم أن طلبنا قد فاز كأفضل استجابة للمهمة. ما الذي تم نشره حول تبادل المعلومات والتعاون بين القطاعات؟
pip install -r requirements.txt
إذا كنت مهتمًا بتجربة وحدات النظام بنفسك، فيمكنك الاستفادة من وحدة النظام بالطرق التالية:
1. إعادة صياغة الاستعلام
بالنسبة لهذا الجزء، يمكنك تنفيذ أساليبك الخاصة أو تخطي هذه الخطوة إذا كانت استعلاماتك قصيرة وبسيطة نسبيًا أو إذا كنت لا تسعى إلى تحقيق أداء SOTA. 2. محرك البحث 2.1 يقوم بتثبيت تبعيات بايثون والفهرس المبني مسبقًا
بعد استرجاع معلومات lucene+answerini كما هو موضح في: https://github.com/castorini/anserini/blob/master/docs/experiments-covid.md، قم بإعداد JAVA sdk 11 أولاً:
curl -O https://download.java.net/java/GA/jdk11/9/GPL/openjdk-11.0.2_linux-x64_bin.tar.gz
mv openjdk-11.0.2_linux-x64_bin.tar.gz /usr/lib/jvm/; cd /usr/lib/jvm/; tar -zxvf openjdk-11.0.2_linux-x64_bin.tar.gz
update-alternatives --install /usr/bin/java java /usr/lib/jvm/jdk-11.0.2/bin/java 1
update-alternatives --set java /usr/lib/jvm/jdk-11.0.2/bin/java
import os
os . environ [ "JAVA_HOME" ] = "/usr/lib/jvm/jdk-11.0.2"
2.2 احصل على مكتبة pyserini، وهي عبارة عن anserini ملفوفة ببايثون:
pip install pyserini==0.8.1.0
يمكننا بناء فهرس لوسين لمجموعة بيانات كوفيد-19 من الصفر، أو الحصول على أحد الفهارس المعدة مسبقًا. باستخدام فهرسة الفقرة التي تفهرس كل فقرة من المقالة (تم تحميل الفهرس بالفعل كمجموعة بيانات لاستخدامها)، يمكن تنزيله من: الرابط.
from pyserini . search import pysearch
COVID_INDEX = 'the directory name of the index you downloaded from the above link'
تتم الفهرسة بناءً على كل فقرة مدمجة مع العنوان والملخص. إذا كانت لديك مقالة بالمعرف doc_id، فسيكون الفهرس كما يلي:
2.3 جرب المثال!
python project/retrieval.py
يمكنك استخدام الحزمة الخاصة بنا عن طريق التثبيت باستخدام pip
أو استخدام الكود المصدري.
pip install caireCovid
في هذا النظام، نقوم ببناء وحدات ضمان الجودة من خلال مجموعة من نموذجين لضمان الجودة، وهما نموذج BioBERT الذي تم ضبطه بدقة على SQuAD، ونموذج MRQA الذي قدمناه إلى MRQA@EMNLP 2019.
يمكن تنزيل نموذج MRQA ونموذج BioBERT المُصدَّر والمستخدمين في هذا المشروع من خلال هذا الرابط.
إذا كنت تريد استخدام نموذج MRQA الخاص بنا في عملك، فيرجى الاستشهاد بالمقالة التالية. Bibtex مدرج أدناه:
@inproceedings{su2019التعميم، title={تعميم نظام الإجابة على الأسئلة من خلال الضبط الدقيق لنموذج اللغة المدرب مسبقًا}, المؤلف={سو، دان وشو، يان وويناتا، جينتا إندرا وشو، بنغ وكيم، هيوندي وليو، زيهان وفونغ، باسكال}، booktitle={وقائع ورشة العمل الثانية حول القراءة الآلية للإجابة على الأسئلة}, الصفحات={203--211}، العام={2019} }
نحن نقدم مثال البرنامج النصي، بينما تحتاج إلى تغيير المسارات إلى نماذج ضمان الجودة في project/qa.py
. لاحظ أنه تمت إعادة تصنيف الناتج النهائي بالفعل بناءً على درجة إعادة الترتيب.
python project/qa.py
يتم تنفيذ تمييز الكلمات الرئيسية بشكل أساسي عن طريق مطابقة المصطلحات، والتي يمكن العثور على الكود الخاص بها في src/covidQA/highlights.py
.
يمكنك استخدام الحزمة الخاصة بنا عن طريق التثبيت باستخدام pip
أو استخدام الكود المصدري.
pip install covidSumm
نحن نقدم أمثلة على البرامج النصية للتلخيص المجرد والاستخراجي.
python project/abstractive_summarization.py
python project/extractive_summarization.py