cord19q
v3.0.0
该存储库是 2020 年 CORD-19 挑战赛完成工作的档案。如果您想以编程方式处理医学文献,请参阅 paperai
COVID-19 开放研究数据集 (CORD-19) 是一个免费的学术文章资源,由领先研究小组联盟汇总,涵盖 COVID-19 和冠状病毒家族。该数据集可以在 Semantic Scholar 和 Kaggle 上找到。
cord19q 项目在 CORD-19 数据集上构建索引,以协助分析和数据发现。我们探讨了一系列与 COVID-19 相关的研究主题,以确定相关文章并帮助找到关键科学问题的答案。
Kaggle CORD-19 挑战任务的完整列表可以在此笔记本中找到。这个笔记本和相应的报告笔记本赢了? 7个奖项?在 Kaggle CORD-19 挑战赛中。
最新的任务也存储在 cord19q 存储库中。
cord19q 可以使用 pip 直接从 GitHub 安装。建议使用 Python 虚拟环境。
pip install git+https://github.com/neuml/cord19q
支持Python 3.6+
cord19q 依赖 paperetl 解析 CORD-19 数据集并将其加载到 SQLite 数据库中。然后使用 paperai 对 CORD-19 数据集运行人工智能驱动的文献综述,以获取查询任务列表。
以下链接展示了如何解析、加载和索引 CORD-19。
模型将存储在 ~/.cord19 中
报告文件只是从查询列表创建的降价文件。一个例子:
python -m paperai.report tasks/risk-factors.yml
完成后,将创建一个名为tasks/risk-factors.md 的文件。
运行查询的最快方法是启动 paperai shell
paperai
将会出现提示。可以直接在控制台中输入查询。