paperai 是医学/科学论文的语义搜索和工作流程应用程序。
应用程序范围从查找医学/科学查询匹配的语义搜索索引到由机器学习支持的成熟报告应用程序。
paperai 和/或 NeuML 已在以下文章中得到认可:
最简单的安装方法是通过 pip 和 PyPI
pip install paperai
支持 Python 3.8+。推荐使用Python虚拟环境。
paperai 也可以直接从 GitHub 安装以访问最新的、未发布的功能。
pip install git+https://github.com/neuml/paperai
请参阅此链接以帮助解决特定于环境的安装问题。
运行以下步骤来构建包含 paperai 和所有依赖项的 docker 映像。
wget https://raw.githubusercontent.com/neuml/paperai/master/docker/Dockerfile
docker build -t paperai .
docker run --name paperai --rm -it paperai
可以添加 paperetl 以使用单个图像来索引和查询内容。按照说明构建 paperetl docker 映像,然后运行以下命令。
docker build -t paperai --build-arg BASE_IMAGE=paperetl --build-arg START=/scripts/start.sh .
docker run --name paperai --rm -it paperai
以下笔记本和应用程序演示了 paperai 提供的功能。
笔记本 | 描述 | |
---|---|---|
纸艺简介 | paperai 提供的功能概述 |
应用 | 描述 |
---|---|
搜索 | 搜索论文索引。设置查询参数,执行搜索并显示结果。 |
paperai 索引以前使用 paperetl 构建的数据库。下面展示了如何创建新的paperai索引。
(可选)创建index.yml文件
如果未指定,paperai 使用默认的 txtai 嵌入配置。或者,可以指定一个 index.yml 文件,该文件采用与 txtai 嵌入实例相同的所有选项。有关可能选项的更多信息,请参阅 txtai 文档。下面显示了一个简单的示例。
path: sentence-transformers/all-MiniLM-L6-v2
content: True
构建嵌入索引
python -m paperai.index <path to input data> <optional index configuration>
paperai.index 进程需要输入数据路径,并且可以选择采用索引配置。此配置可以是矢量模型路径或index.yml配置文件。
运行查询的最快方法是启动 paperai shell
paperai <path to model directory>
将会出现提示。可以直接在控制台中输入查询。
报告支持生成多种格式的输出。报告调用示例:
python -m paperai.report report.yml 50 md <path to model directory>
支持以下报告格式:
在上面的示例中,将创建一个名为report.md 的文件。示例报告配置文件可以在此处找到。
paperai 是 txtai 嵌入索引和带有文章的 SQLite 数据库的组合。每篇文章都被解析为句子并与文章元数据一起存储在 SQLite 中。嵌入是在整个语料库上构建的。
存在多个与模型交互的入口点。