paperai ist eine semantische Such- und Workflow-Anwendung für medizinische/wissenschaftliche Arbeiten.
Die Anwendungen reichen von semantischen Suchindizes, die Übereinstimmungen für medizinische/wissenschaftliche Abfragen finden, bis hin zu vollwertigen Berichtsanwendungen, die auf maschinellem Lernen basieren.
paperai und/oder NeuML wurde in den folgenden Artikeln anerkannt:
Der einfachste Weg zur Installation ist über Pip und PyPI
pip install paperai
Python 3.8+ wird unterstützt. Es wird empfohlen, eine virtuelle Python-Umgebung zu verwenden.
paperai kann auch direkt von GitHub installiert werden, um auf die neuesten, unveröffentlichten Funktionen zuzugreifen.
pip install git+https://github.com/neuml/paperai
Unter diesem Link finden Sie Hilfe bei der Lösung umgebungsspezifischer Installationsprobleme.
Führen Sie die folgenden Schritte aus, um ein Docker-Image mit Paperai und allen Abhängigkeiten zu erstellen.
wget https://raw.githubusercontent.com/neuml/paperai/master/docker/Dockerfile
docker build -t paperai .
docker run --name paperai --rm -it paperai
paperetl kann hinzugefügt werden, um ein einzelnes Bild zum Indizieren und Abfragen von Inhalten zu haben. Befolgen Sie die Anweisungen zum Erstellen eines Paperetl-Docker-Images und führen Sie dann Folgendes aus.
docker build -t paperai --build-arg BASE_IMAGE=paperetl --build-arg START=/scripts/start.sh .
docker run --name paperai --rm -it paperai
Die folgenden Notebooks und Anwendungen demonstrieren die von paperai bereitgestellten Funktionen.
Notizbuch | Beschreibung | |
---|---|---|
Wir stellen Paperai vor | Überblick über die von paperai bereitgestellten Funktionen |
Anwendung | Beschreibung |
---|---|
Suchen | Durchsuchen Sie einen Paperai-Index. Legen Sie Abfrageparameter fest, führen Sie Suchen durch und zeigen Sie Ergebnisse an. |
paperai indiziert Datenbanken, die zuvor mit paperetl erstellt wurden. Im Folgenden wird gezeigt, wie Sie einen neuen Paperai-Index erstellen.
(Optional) Erstellen Sie eine index.yml-Datei
paperai verwendet die Standardkonfiguration für txtai-Einbettungen, wenn diese nicht angegeben ist. Alternativ kann eine index.yml-Datei angegeben werden, die dieselben Optionen wie eine txtai-Embeddings-Instanz akzeptiert. Weitere Informationen zu den möglichen Optionen finden Sie in der txtai-Dokumentation. Ein einfaches Beispiel ist unten dargestellt.
path: sentence-transformers/all-MiniLM-L6-v2
content: True
Erstellen Sie einen Einbettungsindex
python -m paperai.index <path to input data> <optional index configuration>
Der paperai.index-Prozess erfordert einen Eingabedatenpfad und übernimmt optional die Indexkonfiguration. Diese Konfiguration kann entweder ein Vektormodellpfad oder eine index.yml-Konfigurationsdatei sein.
Der schnellste Weg, Abfragen auszuführen, besteht darin, eine Paperai-Shell zu starten
paperai <path to model directory>
Es erscheint eine Eingabeaufforderung. Abfragen können direkt in die Konsole eingegeben werden.
Berichte unterstützen die Generierung von Ausgaben in mehreren Formaten. Ein Beispiel für einen Berichtsaufruf:
python -m paperai.report report.yml 50 md <path to model directory>
Die folgenden Berichtsformate werden unterstützt:
Im obigen Beispiel wird eine Datei mit dem Namen report.md erstellt. Beispielkonfigurationsdateien für Berichte finden Sie hier.
paperai ist eine Kombination aus einem txtai-Einbettungsindex und einer SQLite-Datenbank mit den Artikeln. Jeder Artikel wird in Sätze zerlegt und zusammen mit den Artikelmetadaten in SQLite gespeichert. Einbettungen werden über den gesamten Korpus erstellt.
Für die Interaktion mit dem Modell sind mehrere Einstiegspunkte vorhanden.