Этот репозиторий представляет собой архив работы, проделанной в рамках задачи CORD-19 в 2020 году. Если вы хотите программно обрабатывать медицинскую литературу, см. paperai.
Набор данных открытых исследований COVID-19 (CORD-19) — это бесплатный ресурс научных статей, собранный коалицией ведущих исследовательских групп, посвященных COVID-19 и семейству вирусов коронавируса. Набор данных можно найти на Semantic Scholar и Kaggle.
Проект cord19q создает индекс на основе набора данных CORD-19, чтобы помочь в анализе и обнаружении данных. Был изучен ряд тем исследований, связанных с COVID-19, чтобы выявить соответствующие статьи и помочь найти ответы на ключевые научные вопросы.
Полный список задач Kaggle CORD-19 Challenge можно найти в этом блокноте. Этот блокнот и соответствующие блокноты для отчетов выиграли ? 7 наград? в соревновании Kaggle CORD-19 Challenge.
Последние задачи также хранятся в репозитории cord19q.
cord19q можно установить прямо с GitHub с помощью pip. Рекомендуется использовать виртуальную среду Python.
pip install git+https://github.com/neuml/cord19q
Поддерживается Python 3.6+
cord19q использует paperetl для анализа и загрузки набора данных CORD-19 в базу данных SQLite. Затем paperai используется для запуска обзора литературы с помощью искусственного интеллекта по набору данных CORD-19 для получения списка задач запроса.
Следующие ссылки показывают, как анализировать, загружать и индексировать CORD-19.
Модель будет храниться в ~/.cord19.
Файл отчета — это просто файл уценки, созданный на основе списка запросов. Пример:
python -m paperai.report tasks/risk-factors.yml
После завершения будет создан файл с именем Tasks/risk-factors.md.
Самый быстрый способ запуска запросов — запустить оболочку paperai.
paperai
Появится подсказка. Запросы можно вводить прямо в консоль.