Este repositório é um arquivo do trabalho realizado com o desafio CORD-19 em 2020. Se você gostaria de processar literatura médica programaticamente, consulte paperai
O COVID-19 Open Research Dataset (CORD-19) é um recurso gratuito de artigos acadêmicos, agregado por uma coalizão de grupos de pesquisa líderes, cobrindo o COVID-19 e a família de vírus coronavírus. O conjunto de dados pode ser encontrado no Semantic Scholar e Kaggle.
O projeto cord19q constrói um índice sobre o conjunto de dados CORD-19 para auxiliar na análise e descoberta de dados. Uma série de tópicos de pesquisa relacionados à COVID-19 foram explorados para identificar artigos relevantes e ajudar a encontrar respostas para questões científicas importantes.
Uma lista completa das tarefas do Desafio Kaggle CORD-19 pode ser encontrada neste caderno. Este caderno e os cadernos de relatórios correspondentes venceram? 7 prêmios? no Desafio Kaggle CORD-19.
As tarefas mais recentes também são armazenadas no repositório cord19q.
cord19q pode ser instalado diretamente do GitHub usando pip. É recomendado usar um ambiente virtual Python.
pip install git+https://github.com/neuml/cord19q
Python 3.6+ é compatível
cord19q depende do paperetl para analisar e carregar o conjunto de dados CORD-19 em um banco de dados SQLite. paperai é então usado para executar uma revisão de literatura baseada em IA sobre o conjunto de dados CORD-19 para obter uma lista de tarefas de consulta.
Os links a seguir mostram como analisar, carregar e indexar CORD-19.
O modelo será armazenado em ~/.cord19
Um arquivo de relatório é simplesmente um arquivo markdown criado a partir de uma lista de consultas. Um exemplo:
python -m paperai.report tasks/risk-factors.yml
Depois de concluído, um arquivo chamado tarefas/fatores de risco.md será criado.
A maneira mais rápida de executar consultas é iniciar um shell paperai
paperai
Um prompt aparecerá. As consultas podem ser digitadas diretamente no console.