這個開源專案有兩個目的。
- 收集和評估問答資料集以改進現有的 QA/搜尋方法 - COVID-QA
- 問題匹配功能:透過 NLP 為 COVID-19 的問題提供值得信賴的答案 -已過時
新冠病毒品質保證
- 連結到 COVID-QA 數據集
- OpenReview 的隨附論文
- 註釋指南為 pdf 或視頻
- deepset/roberta-base-squad2-covid 在 COVID-QA 上訓練的 QA 模型
2020 年 4 月 14 日更新:我們正在開源第一批 SQuAD 風格的問答註解。感謝 Tony Reina 管理整個流程,以及許多專業註釋者花費寶貴的時間瀏覽與新冠病毒相關的研究論文。
常見問題匹配
2020 年 6 月 17 日更新:值得慶幸的是,由於疫情正在放緩,而且其他資訊來源也趕上了,我們決定將託管的 API 和 UI 離線。我們將把儲存庫保留在這裡,作為其他專案的靈感並共享 COVID-QA 資料集。
⚡ 問題
- 人們對 COVID-19 有很多疑問
- 答案分散在不同的網站上
- 找到正確的答案需要花費很多時間
- 答案的可信度很難判斷
- 許多答案很快就會過時
主意
- 匯總來自可信任資料來源(WHO、CDC ...)的常見問題和文本
- 提供一個使用者可以提問的 UI
- 使用 NLP 將用戶提出的問題與有意義的答案進行匹配
- 使用者可以提供有關答案的回饋,以改進 NLP 模型並標記過時或錯誤的答案
- 顯示沒有好的答案的最常見查詢,以指導資料收集和模型改進
科技
- 刮刀收集數據
- Elasticsearch 用於儲存文字、常見問題、嵌入
- 透過 Haystack 實現的 NLP 模型可透過 a) 檢測常見問題解答中的類似問題 b) 檢測自由文本中的答案(抽取式 QA)來找出答案
- 反應前端