このリポジトリは、2020 年に CORD-19 チャレンジで行われた作業のアーカイブです。医学文献をプログラムで処理したい場合は、paperai を参照してください。
COVID-19 Open Research Dataset (CORD-19) は、主要な研究グループの連合によって集約された学術論文の無料リソースであり、COVID-19 とコロナウイルスファミリーをカバーしています。このデータセットは Semantic Scholar と Kaggle で見つけることができます。
code19q プロジェクトは、分析とデータ検出を支援するために CORD-19 データセットにインデックスを構築します。関連する論文を特定し、主要な科学的疑問に対する答えを見つけるために、一連の COVID-19 関連の研究トピックが調査されました。
Kaggle CORD-19 Challenge タスクの完全なリストは、このノートブックにあります。このノートとそれに対応するレポートノートが当たりましたか? 7つの賞? Kaggle CORD-19 チャレンジで。
最新のタスクもcord19q リポジトリに保存されます。
code19q は、pip を使用して GitHub から直接インストールできます。 Python 仮想環境の使用をお勧めします。
pip install git+https://github.com/neuml/cord19q
Python 3.6以降がサポートされています
code19q は、paperetl を利用して CORD-19 データセットを解析し、SQLite データベースにロードします。次に、paperai を使用して、CORD-19 データセットに対して AI を活用した文献レビューを実行し、クエリ タスクのリストを取得します。
次のリンクは、CORD-19 を解析、ロード、インデックス付けする方法を示しています。
モデルは ~/.cord19 に保存されます
レポート ファイルは、クエリのリストから作成された単なるマークダウン ファイルです。例:
python -m paperai.report tasks/risk-factors.yml
完了すると、tasks/risk-factors.md という名前のファイルが作成されます。
クエリを実行する最も速い方法は、paperai シェルを開始することです
paperai
プロンプトが表示されます。クエリはコンソールに直接入力できます。