이 저장소는 2020년 CORD-19 챌린지에서 수행된 작업의 아카이브입니다. 의학 문헌을 프로그래밍 방식으로 처리하려면 paperai를 참조하세요.
코로나19 공개 연구 데이터세트(CORD-19)는 코로나19와 코로나바이러스 계열 바이러스를 다루는 주요 연구 그룹 연합이 집계한 학술 기사의 무료 리소스입니다. 데이터 세트는 Semantic Scholar 및 Kaggle에서 찾을 수 있습니다.
cord19q 프로젝트는 CORD-19 데이터 세트에 대한 인덱스를 구축하여 분석 및 데이터 검색을 지원합니다. 일련의 코로나19 관련 연구 주제를 탐색하여 관련 기사를 식별하고 주요 과학적 질문에 대한 답변을 찾는 데 도움을 주었습니다.
Kaggle CORD-19 Challenge 작업의 전체 목록은 이 노트북에서 찾을 수 있습니다. 이 노트와 해당 리포트 노트가 당첨되었나요? 7개 수상? Kaggle CORD-19 챌린지에서.
최신 작업은 cord19q 저장소에도 저장됩니다.
cord19q는 pip를 사용하여 GitHub에서 직접 설치할 수 있습니다. Python 가상 환경을 사용하는 것이 좋습니다.
pip install git+https://github.com/neuml/cord19q
Python 3.6+가 지원됩니다.
cord19q는 paperetl을 사용하여 CORD-19 데이터 세트를 구문 분석하고 SQLite 데이터베이스에 로드합니다. 그런 다음 paperai를 사용하여 쿼리 작업 목록을 위해 CORD-19 데이터 세트에 대한 AI 기반 문헌 검토를 실행합니다.
다음 링크는 CORD-19를 구문 분석, 로드 및 색인화하는 방법을 보여줍니다.
모델은 ~/.cord19에 저장됩니다.
보고서 파일은 단순히 쿼리 목록에서 생성된 마크다운 파일입니다. 예:
python -m paperai.report tasks/risk-factors.yml
완료되면 task/risk-factors.md라는 파일이 생성됩니다.
쿼리를 실행하는 가장 빠른 방법은 paperai 셸을 시작하는 것입니다.
paperai
프롬프트가 나타납니다. 쿼리는 콘솔에 직접 입력할 수 있습니다.