cord19q
v3.0.0
該儲存庫是 2020 年 CORD-19 挑戰賽完成工作的檔案。
COVID-19 開放研究資料集 (CORD-19) 是一個免費的學術文章資源,由領先研究小組聯盟匯總,涵蓋 COVID-19 和冠狀病毒家族。該資料集可以在 Semantic Scholar 和 Kaggle 上找到。
cord19q 專案在 CORD-19 資料集上建立索引,以協助分析和資料發現。我們探討了一系列與 COVID-19 相關的研究主題,以確定相關文章並幫助找到關鍵科學問題的答案。
Kaggle CORD-19 挑戰任務的完整清單可以在此筆記本中找到。這本筆記本和相應的報告筆記本贏了? 7個獎項?在 Kaggle CORD-19 挑戰賽中。
最新的任務也儲存在 cord19q 儲存庫中。
cord19q 可以使用 pip 直接從 GitHub 安裝。建議使用 Python 虛擬環境。
pip install git+https://github.com/neuml/cord19q
支援Python 3.6+
cord19q 依賴 paperetl 解析 CORD-19 資料集並將其載入到 SQLite 資料庫中。然後使用 paperai 對 CORD-19 資料集執行 AI 支援的文獻綜述,以取得查詢任務清單。
以下連結展示如何解析、載入和索引 CORD-19。
模型將儲存在 ~/.cord19 中
報告文件只是從查詢清單建立的降價文件。一個例子:
python -m paperai.report tasks/risk-factors.yml
完成後,將建立一個名為tasks/risk-factors.md 的檔案。
執行查詢最快的方法是啟動 paperai shell
paperai
將會出現提示。可以直接在控制台中輸入查詢。