Dieses Open-Source-Projekt dient zwei Zwecken.
- Erfassung und Auswertung eines Frage-Antwort-Datensatzes zur Verbesserung bestehender QA-/Suchmethoden – COVID-QA
- Funktionen zum Abgleichen von Fragen: Stellen Sie mithilfe von NLP vertrauenswürdige Antworten auf Fragen zu COVID-19 bereit – veraltet
COVID-QA
- Link zum COVID-QA-Datensatz
- Begleitpapier zu OpenReview
- Anmerkungsrichtlinien als PDF oder Videos
- deepset/roberta-base-squad2-covid ein auf COVID-QA trainiertes QA-Modell
Update 14. April 2020: Wir stellen den ersten Stapel von Frage-Antwort-Anmerkungen im SQuAD-Stil als Open Source zur Verfügung. Vielen Dank an Tony Reina für die Leitung des Prozesses und an die vielen professionellen Kommentatoren, die wertvolle Zeit damit verbringen, Forschungsarbeiten zum Thema Covid durchzusehen.
FAQ-Abgleich
Update 17. Juni 2020 : Da sich die Pandemie glücklicherweise verlangsamt und andere Informationsquellen aufgeholt haben, haben wir beschlossen, unsere gehostete API und Benutzeroberfläche offline zu nehmen. Wir behalten das Repository hier als Inspiration für andere Projekte und zur Weitergabe des COVID-QA-Datensatzes.
⚡ Problem
- Die Menschen haben viele Fragen zu COVID-19
- Die Antworten sind auf verschiedenen Websites verstreut
- Die richtigen Antworten zu finden, nimmt viel Zeit in Anspruch
- Die Vertrauenswürdigkeit der Antworten ist schwer zu beurteilen
- Viele Antworten sind bald veraltet
Idee
- Aggregierte FAQs und Texte aus vertrauenswürdigen Datenquellen (WHO, CDC ...)
- Stellen Sie eine Benutzeroberfläche bereit, über die Personen Fragen stellen können
- Verwenden Sie NLP, um eingehende Fragen von Benutzern mit aussagekräftigen Antworten abzugleichen
- Benutzer können Feedback zu Antworten geben, um das NLP-Modell zu verbessern und veraltete oder falsche Antworten zu kennzeichnen
- Zeigen Sie die häufigsten Fragen ohne gute Antworten an, um die Datenerfassung und Modellverbesserungen zu unterstützen
Techn
- Schaber zum Sammeln von Daten
- Elasticsearch zum Speichern von Texten, FAQs, Einbettungen
- Über Haystack implementierte NLP-Modelle, um Antworten zu finden, indem a) ähnliche Fragen in FAQs erkannt werden, b) Antworten in Freitexten erkannt werden (extraktive Qualitätssicherung).
- Frontend reagieren