Ce projet open source répond à deux objectifs.
- Collecte et évaluation d'un ensemble de données de questions-réponses pour améliorer les méthodes d'assurance qualité/de recherche existantes - COVID-QA
- Capacités de mise en correspondance des questions : fournir des réponses fiables aux questions sur le COVID-19 via la PNL - obsolète
COVID-QA
- Lien vers l'ensemble de données COVID-QA
- Document d'accompagnement sur OpenReview
- Directives d'annotation au format PDF ou vidéos
- deepset/roberta-base-squad2-covid un modèle d'assurance qualité formé sur le COVID-QA
Mise à jour du 14 avril 2020 : nous mettons en open source le premier lot d'annotations de réponses aux questions de style SQuAD. Merci à Tony Reina pour la gestion du processus et aux nombreux annotateurs professionnels qui consacrent un temps précieux à parcourir les documents de recherche liés à Covid.
Correspondance FAQ
Mise à jour du 17 juin 2020 : Alors que la pandémie ralentit heureusement et que d'autres sources d'informations ont rattrapé leur retard, nous avons décidé de mettre hors ligne notre API et notre interface utilisateur hébergées. Nous conserverons le référentiel ici comme source d'inspiration pour d'autres projets et pour partager l'ensemble de données COVID-QA.
⚡ Problème
- Les gens se posent beaucoup de questions sur le COVID-19
- Les réponses sont dispersées sur différents sites Web
- Trouver les bonnes réponses prend beaucoup de temps
- La fiabilité des réponses est difficile à juger
- De nombreuses réponses deviennent bientôt obsolètes
Idée
- Agrégez les FAQ et les textes provenant de sources de données fiables (OMS, CDC...)
- Fournir une interface utilisateur où les gens peuvent poser des questions
- Utilisez la PNL pour faire correspondre les questions entrantes des utilisateurs avec des réponses significatives
- Les utilisateurs peuvent fournir des commentaires sur les réponses pour améliorer le modèle NLP et signaler les réponses obsolètes ou erronées.
- Afficher les requêtes les plus courantes sans bonnes réponses pour guider la collecte de données et les améliorations du modèle
Technologie
- Scrapers pour collecter des données
- Elasticsearch pour stocker des textes, des FAQ, des intégrations
- Modèles NLP implémentés via Haystack pour trouver des réponses via a) la détection de questions similaires dans les FAQ b) la détection des réponses dans les textes libres (AQ extractive)
- Réagir à l'interface frontale