paperai 是醫學/科學論文的語意搜尋和工作流程應用程式。
應用程式範圍從查找醫學/科學查詢匹配的語義搜尋索引到由機器學習支援的成熟報告應用程式。
paperai 和/或 NeuML 已在以下文章中被認可:
最簡單的安裝方法是透過 pip 和 PyPI
pip install paperai
支援 Python 3.8+。推薦使用Python虛擬環境。
paperai 也可以直接從 GitHub 安裝以存取最新的、未發布的功能。
pip install git+https://github.com/neuml/paperai
請參閱此連結以協助解決特定於環境的安裝問題。
執行以下步驟來建立包含 paperai 和所有相依性的 docker 映像。
wget https://raw.githubusercontent.com/neuml/paperai/master/docker/Dockerfile
docker build -t paperai .
docker run --name paperai --rm -it paperai
可以新增 paperetl 以使用單一圖像來索引和查詢內容。依照說明建立 paperetl docker 映像,然後執行以下命令。
docker build -t paperai --build-arg BASE_IMAGE=paperetl --build-arg START=/scripts/start.sh .
docker run --name paperai --rm -it paperai
以下筆記本和應用程式示範了 paperai 提供的功能。
筆記本 | 描述 | |
---|---|---|
紙藝簡介 | paperai 提供的功能概述 |
應用 | 描述 |
---|---|
搜尋 | 搜尋論文索引。設定查詢參數,執行搜尋並顯示結果。 |
paperai 索引先前使用 paperetl 建構的資料庫。下面展示如何建立新的paperai索引。
(可選)建立index.yml文件
如果未指定,paperai 使用預設的 txtai 嵌入配置。或者,可以指定一個 index.yml 文件,該文件採用與 txtai 嵌入實例相同的所有選項。有關可能選項的更多信息,請參閱 txtai 文件。下面顯示了一個簡單的範例。
path: sentence-transformers/all-MiniLM-L6-v2
content: True
建構嵌入索引
python -m paperai.index <path to input data> <optional index configuration>
paperai.index 進程需要輸入資料路徑,並且可以選擇採用索引配置。此配置可以是向量模型路徑或index.yml配置檔。
執行查詢最快的方法是啟動 paperai shell
paperai <path to model directory>
將會出現提示。可以直接在控制台中輸入查詢。
報告支援產生多種格式的輸出。報告呼叫範例:
python -m paperai.report report.yml 50 md <path to model directory>
支援以下報告格式:
在上面的範例中,將建立一個名為report.md 的檔案。範例報告設定檔可以在此處找到。
paperai 是 txtai 嵌入索引和帶有文章的 SQLite 資料庫的組合。每篇文章都被解析為句子並與文章元資料一起儲存在 SQLite 中。嵌入是在整個語料庫上建構的。
存在多個與模型互動的入口點。