paperai는 의학/과학 논문을 위한 의미론적 검색 및 워크플로우 애플리케이션입니다.
응용 프로그램은 의학/과학적 쿼리와 일치하는 항목을 찾는 의미 검색 색인부터 기계 학습을 기반으로 하는 본격적인 보고 응용 프로그램까지 다양합니다.
paperai 및/또는 NeuML은 다음 기사에서 인정되었습니다.
가장 쉬운 설치 방법은 pip와 PyPI를 이용하는 것입니다.
pip install paperai
Python 3.8+가 지원됩니다. Python 가상 환경을 사용하는 것이 좋습니다.
paperai는 GitHub에서 직접 설치하여 아직 출시되지 않은 최신 기능에 액세스할 수도 있습니다.
pip install git+https://github.com/neuml/paperai
환경별 설치 문제를 해결하려면 이 링크를 참조하세요.
paperai 및 모든 종속성이 포함된 Docker 이미지를 빌드하려면 아래 단계를 실행하세요.
wget https://raw.githubusercontent.com/neuml/paperai/master/docker/Dockerfile
docker build -t paperai .
docker run --name paperai --rm -it paperai
paperetl을 추가하면 단일 이미지를 사용하여 콘텐츠를 색인화하고 쿼리할 수 있습니다. 지침에 따라 paperetl docker 이미지를 빌드한 후 다음을 실행합니다.
docker build -t paperai --build-arg BASE_IMAGE=paperetl --build-arg START=/scripts/start.sh .
docker run --name paperai --rm -it paperai
다음 노트북과 애플리케이션은 paperai가 제공하는 기능을 보여줍니다.
공책 | 설명 | |
---|---|---|
paperai 소개 | paperai가 제공하는 기능 개요 |
애플리케이션 | 설명 |
---|---|
찾다 | paperai 색인을 검색해 보세요. 쿼리 매개변수를 설정하고, 검색을 실행하고, 결과를 표시합니다. |
paperai는 이전에 paperetl로 구축된 데이터베이스를 색인화합니다. 다음은 새로운 paperai 색인을 생성하는 방법을 보여줍니다.
(선택 사항) index.yml 파일 생성
paperai는 지정되지 않은 경우 기본 txtai 임베딩 구성을 사용합니다. 또는 txtai 임베딩 인스턴스와 동일한 옵션을 모두 사용하는 index.yml 파일을 지정할 수 있습니다. 가능한 옵션에 대한 자세한 내용은 txtai 설명서를 참조하세요. 간단한 예가 아래에 나와 있습니다.
path: sentence-transformers/all-MiniLM-L6-v2
content: True
임베딩 인덱스 구축
python -m paperai.index <path to input data> <optional index configuration>
paperai.index 프로세스에는 입력 데이터 경로가 필요하며 선택적으로 인덱스 구성을 사용합니다. 이 구성은 벡터 모델 경로 또는 index.yml 구성 파일일 수 있습니다.
쿼리를 실행하는 가장 빠른 방법은 paperai 셸을 시작하는 것입니다.
paperai <path to model directory>
프롬프트가 나타납니다. 쿼리는 콘솔에 직접 입력할 수 있습니다.
보고서는 다양한 형식의 출력 생성을 지원합니다. 보고서 호출 예시:
python -m paperai.report report.yml 50 md <path to model directory>
다음 보고서 형식이 지원됩니다.
위의 예에서는 report.md라는 파일이 생성됩니다. 보고서 구성 파일의 예는 여기에서 찾을 수 있습니다.
paperai는 txtai 임베딩 인덱스와 SQLite 데이터베이스를 기사와 결합한 것입니다. 각 기사는 문장으로 분석되어 기사 메타데이터와 함께 SQLite에 저장됩니다. 임베딩은 전체 코퍼스에 걸쳐 구축됩니다.
모델과 상호 작용하기 위해 여러 진입점이 존재합니다.