Este repositorio es un archivo del trabajo realizado con el desafío CORD-19 en 2020. Si desea procesar literatura médica mediante programación, consulte paperai
COVID-19 Open Research Dataset (CORD-19) es un recurso gratuito de artículos académicos, agregados por una coalición de grupos de investigación líderes, que cubren COVID-19 y la familia de virus coronavirus. El conjunto de datos se puede encontrar en Semantic Scholar y Kaggle.
El proyecto cord19q crea un índice sobre el conjunto de datos CORD-19 para ayudar con el análisis y el descubrimiento de datos. Se exploraron una serie de temas de investigación relacionados con la COVID-19 para identificar artículos relevantes y ayudar a encontrar respuestas a preguntas científicas clave.
Puede encontrar una lista completa de las tareas del desafío Kaggle CORD-19 en este cuaderno. ¿Este cuaderno y los cuadernos de informes correspondientes ganaron? 7 premios? en el Desafío Kaggle CORD-19.
Las tareas más recientes también se almacenan en el repositorio cord19q.
cord19q se puede instalar directamente desde GitHub usando pip. Se recomienda utilizar un entorno virtual Python.
pip install git+https://github.com/neuml/cord19q
Se admite Python 3.6+
cord19q depende de paperetl para analizar y cargar el conjunto de datos CORD-19 en una base de datos SQLite. Luego, paperai se utiliza para ejecutar una revisión de la literatura impulsada por IA en el conjunto de datos CORD-19 para obtener una lista de tareas de consulta.
Los siguientes enlaces muestran cómo analizar, cargar e indexar CORD-19.
El modelo se almacenará en ~/.cord19
Un archivo de informe es simplemente un archivo de rebajas creado a partir de una lista de consultas. Un ejemplo:
python -m paperai.report tasks/risk-factors.yml
Una vez completado, se creará un archivo llamado task/risk-factors.md.
La forma más rápida de ejecutar consultas es iniciar un shell paperai
paperai
Aparecerá un mensaje. Las consultas se pueden escribir directamente en la consola.