paperai adalah aplikasi pencarian semantik dan alur kerja untuk makalah medis/ilmiah.
Aplikasi berkisar dari indeks pencarian semantik yang menemukan kecocokan untuk pertanyaan medis/ilmiah hingga aplikasi pelaporan lengkap yang didukung oleh pembelajaran mesin.
paperai dan/atau NeuML telah diakui dalam artikel berikut:
Cara termudah untuk menginstal adalah melalui pip dan PyPI
pip install paperai
Python 3.8+ didukung. Disarankan menggunakan lingkungan virtual Python.
paperai juga dapat diinstal langsung dari GitHub untuk mengakses fitur-fitur terbaru yang belum dirilis.
pip install git+https://github.com/neuml/paperai
Lihat tautan ini untuk membantu menyelesaikan masalah penginstalan khusus lingkungan.
Jalankan langkah-langkah di bawah ini untuk membuat image buruh pelabuhan dengan paperai dan semua dependensi.
wget https://raw.githubusercontent.com/neuml/paperai/master/docker/Dockerfile
docker build -t paperai .
docker run --name paperai --rm -it paperai
paperetl dapat ditambahkan untuk memiliki satu gambar untuk diindeks dan menanyakan konten. Ikuti instruksi untuk membuat image buruh pelabuhan paperetl lalu jalankan yang berikut ini.
docker build -t paperai --build-arg BASE_IMAGE=paperetl --build-arg START=/scripts/start.sh .
docker run --name paperai --rm -it paperai
Notebook dan aplikasi berikut menunjukkan kemampuan yang disediakan oleh paperai.
Buku catatan | Keterangan | |
---|---|---|
Memperkenalkan kertasai | Ikhtisar fungsionalitas yang disediakan oleh paperai |
Aplikasi | Keterangan |
---|---|
Mencari | Cari indeks paperai. Tetapkan parameter kueri, jalankan pencarian, dan tampilkan hasil. |
paperai mengindeks database yang sebelumnya dibuat dengan paperetl. Berikut ini cara membuat indeks paperai baru.
(Opsional) Buat file index.yml
paperai menggunakan konfigurasi penyematan txtai default jika tidak ditentukan. Alternatifnya, file index.yml dapat ditentukan yang mengambil semua opsi yang sama seperti contoh penyematan txtai. Lihat dokumentasi txtai untuk mengetahui lebih lanjut tentang opsi yang memungkinkan. Contoh sederhana ditunjukkan di bawah ini.
path: sentence-transformers/all-MiniLM-L6-v2
content: True
Bangun indeks penyematan
python -m paperai.index <path to input data> <optional index configuration>
Proses paperai.index memerlukan jalur data masukan dan secara opsional mengambil konfigurasi indeks. Konfigurasi ini dapat berupa jalur model vektor atau file konfigurasi index.yml.
Cara tercepat untuk menjalankan kueri adalah dengan memulai shell paperai
paperai <path to model directory>
Sebuah prompt akan muncul. Kueri dapat diketik langsung ke konsol.
Laporan mendukung menghasilkan keluaran dalam berbagai format. Contoh panggilan laporan:
python -m paperai.report report.yml 50 md <path to model directory>
Format laporan berikut ini didukung:
Pada contoh di atas, file bernama report.md akan dibuat. Contoh file konfigurasi laporan dapat ditemukan di sini.
paperai adalah kombinasi indeks embeddings txtai dan database SQLite dengan artikel. Setiap artikel diurai menjadi kalimat dan disimpan dalam SQLite bersama dengan metadata artikel. Penyematan dibuat di seluruh korpus.
Ada beberapa titik masuk untuk berinteraksi dengan model.