paperai — это приложение для семантического поиска и документооборота медицинских/научных статей.
Приложения варьируются от индексов семантического поиска, которые находят совпадения по медицинским/научным запросам, до полноценных приложений для составления отчетов, основанных на машинном обучении.
paperai и/или NeuML отмечены в следующих статьях:
Самый простой способ установки — через pip и PyPI.
pip install paperai
Поддерживается Python 3.8+. Рекомендуется использовать виртуальную среду Python.
paperai также можно установить непосредственно с GitHub, чтобы получить доступ к новейшим, еще не выпущенным функциям.
pip install git+https://github.com/neuml/paperai
Перейдите по этой ссылке, чтобы решить проблемы установки, связанные с конкретной средой.
Выполните приведенные ниже шаги, чтобы создать образ Docker с paperai и всеми зависимостями.
wget https://raw.githubusercontent.com/neuml/paperai/master/docker/Dockerfile
docker build -t paperai .
docker run --name paperai --rm -it paperai
paperetl можно добавить, чтобы иметь одно изображение для индексации и запроса содержимого. Следуйте инструкциям, чтобы создать образ docker paperetl, а затем запустите следующее.
docker build -t paperai --build-arg BASE_IMAGE=paperetl --build-arg START=/scripts/start.sh .
docker run --name paperai --rm -it paperai
Следующие блокноты и приложения демонстрируют возможности, предоставляемые paperai.
Блокнот | Описание | |
---|---|---|
Представляем бумагуай | Обзор функциональности, предоставляемой paperai |
Приложение | Описание |
---|---|
Поиск | Найдите в индексе paperai. Установите параметры запроса, выполняйте поиск и отображайте результаты. |
paperai индексирует базы данных, ранее созданные с помощью paperetl. Ниже показано, как создать новый индекс paperai.
(Необязательно) Создайте файл index.yml.
paperai использует конфигурацию встраивания txtai по умолчанию, если она не указана. В качестве альтернативы можно указать файл index.yml, который принимает все те же параметры, что и экземпляр встраивания txtai. Дополнительную информацию о возможных параметрах см. в документации txtai. Простой пример показан ниже.
path: sentence-transformers/all-MiniLM-L6-v2
content: True
Создать индекс вложений
python -m paperai.index <path to input data> <optional index configuration>
Процесс paperai.index требует пути к входным данным и при необходимости принимает конфигурацию индекса. Эта конфигурация может быть либо путем векторной модели, либо файлом конфигурации index.yml.
Самый быстрый способ запуска запросов — запустить оболочку paperai.
paperai <path to model directory>
Появится подсказка. Запросы можно вводить прямо в консоль.
Отчеты поддерживают создание выходных данных в нескольких форматах. Пример вызова отчета:
python -m paperai.report report.yml 50 md <path to model directory>
Поддерживаются следующие форматы отчетов:
В приведенном выше примере будет создан файл с именем report.md. Примеры файлов конфигурации отчета можно найти здесь.
paperai — это комбинация индекса вложений txtai и базы данных SQLite со статьями. Каждая статья разбивается на предложения и сохраняется в SQLite вместе с метаданными статьи. Вложения строятся по всему корпусу.
Для взаимодействия с моделью существует несколько точек входа.