Paperai は、医学/科学論文のセマンティック検索およびワークフロー アプリケーションです。
アプリケーションは、医学/科学クエリの一致を見つけるセマンティック検索インデックスから、機械学習を活用した本格的なレポート アプリケーションまで多岐にわたります。
Paperai および/または NeuML は、次の記事で認められています。
最も簡単なインストール方法は、pip と PyPI を使用することです。
pip install paperai
Python 3.8以降がサポートされています。 Python 仮想環境の使用をお勧めします。
Paperai を GitHub から直接インストールして、最新の未リリース機能にアクセスすることもできます。
pip install git+https://github.com/neuml/paperai
環境固有のインストールの問題を解決するには、このリンクを参照してください。
以下の手順を実行して、paperai とすべての依存関係を含む Docker イメージを構築します。
wget https://raw.githubusercontent.com/neuml/paperai/master/docker/Dockerfile
docker build -t paperai .
docker run --name paperai --rm -it paperai
Paperetl を追加すると、単一の画像をインデックス化してコンテンツをクエリすることができます。指示に従って Paperetl Docker イメージを構築し、以下を実行します。
docker build -t paperai --build-arg BASE_IMAGE=paperetl --build-arg START=/scripts/start.sh .
docker run --name paperai --rm -it paperai
次のノートブックとアプリケーションは、paperai が提供する機能を示しています。
ノート | 説明 | |
---|---|---|
ペーパーライのご紹介 | Paperaiが提供する機能の概要 |
応用 | 説明 |
---|---|
検索 | Paperai インデックスを検索します。クエリパラメータを設定し、検索を実行し、結果を表示します。 |
Paperai は、以前に Paperetl で構築されたデータベースにインデックスを付けます。 Paperai インデックスを新規作成する方法を以下に示します。
(オプション)index.ymlファイルを作成します。
指定されていない場合、paperai はデフォルトの txtai 埋め込み構成を使用します。あるいは、txtai embeddings インスタンスと同じオプションをすべて取る、index.yml ファイルを指定することもできます。可能なオプションの詳細については、txtai のドキュメントを参照してください。簡単な例を以下に示します。
path: sentence-transformers/all-MiniLM-L6-v2
content: True
埋め込みインデックスの構築
python -m paperai.index <path to input data> <optional index configuration>
Paperai.index プロセスには入力データ パスが必要で、オプションでインデックス構成も実行されます。この構成は、ベクター モデル パスまたはindex.yml 構成ファイルのいずれかになります。
クエリを実行する最も速い方法は、paperai シェルを開始することです
paperai <path to model directory>
プロンプトが表示されます。クエリはコンソールに直接入力できます。
レポートは、複数の形式での出力の生成をサポートしています。レポート呼び出しの例:
python -m paperai.report report.yml 50 md <path to model directory>
次のレポート形式がサポートされています。
上の例では、report.md という名前のファイルが作成されます。レポート構成ファイルの例はここにあります。
Paperai は、txtai embeddings インデックスと記事を含む SQLite データベースを組み合わせたものです。各記事は文に解析され、記事のメタデータとともに SQLite に保存されます。埋め込みはコーパス全体にわたって構築されます。
モデルと対話するために複数のエントリ ポイントが存在します。