这个开源项目有两个目的。
- 收集和评估问答数据集以改进现有的 QA/搜索方法 - COVID-QA
- 问题匹配功能:通过 NLP 为有关 COVID-19 的问题提供值得信赖的答案 -已过时
新冠病毒质量保证
- 链接到 COVID-QA 数据集
- OpenReview 的随附论文
- 注释指南为 pdf 或视频
- deepset/roberta-base-squad2-covid 在 COVID-QA 上训练的 QA 模型
2020 年 4 月 14 日更新:我们正在开源第一批 SQuAD 风格的问答注释。感谢托尼·雷纳 (Tony Reina) 管理整个流程,以及许多专业注释者花费宝贵的时间浏览与新冠病毒相关的研究论文。
常见问题匹配
2020 年 6 月 17 日更新:值得庆幸的是,由于疫情正在放缓,而且其他信息源也赶上了,我们决定将托管的 API 和 UI 离线。我们将把存储库保留在这里,作为其他项目的灵感并共享 COVID-QA 数据集。
⚡ 问题
- 人们对 COVID-19 有很多疑问
- 答案分散在不同的网站上
- 找到正确的答案需要很多时间
- 答案的可信度很难判断
- 许多答案很快就会过时
主意
- 汇总来自可信数据源(WHO、CDC ...)的常见问题解答和文本
- 提供一个用户可以提问的 UI
- 使用 NLP 将用户提出的问题与有意义的答案进行匹配
- 用户可以提供有关答案的反馈,以改进 NLP 模型并标记过时或错误的答案
- 显示没有好的答案的最常见查询,以指导数据收集和模型改进
科技
- 刮刀收集数据
- Elasticsearch 用于存储文本、常见问题解答、嵌入
- 通过 Haystack 实现的 NLP 模型可通过 a) 检测常见问题解答中的类似问题 b) 检测自由文本中的答案(抽取式 QA)来查找答案
- 反应前端