ongpt Logo" style="max-width: 100%;">
ontogpt adalah paket Python untuk mengekstraksi informasi terstruktur dari teks dengan model bahasa besar (LLM), petunjuk instruksi , dan landasan berbasis ontologi.
Untuk lebih jelasnya, silakan lihat dokumentasi lengkapnya.
ontogpt berjalan pada baris perintah, meskipun ada juga antarmuka aplikasi web minimal (lihat bagian Web Application
di bawah).
Pastikan Anda menginstal Python 3.9 atau lebih tinggi.
Instal dengan pip
:
pip install ontogpt
Setel kunci API OpenAI Anda:
runoak set-apikey -e openai < your openai api key >
Lihat daftar semua perintah ontogpt :
ontogpt --help
Coba contoh sederhana ekstraksi informasi:
echo " One treatment for high blood pressure is carvedilol. " > example.txt
ontogpt extract -i example.txt -t drug
ontogpt akan mengambil ontologi yang diperlukan dan hasil keluaran ke baris perintah. Output Anda akan menyediakan semua objek yang diekstraksi di bawah judul extracted_object
.
Ada aplikasi web sederhana untuk menjalankan ontogpt dan melihat hasilnya.
Pertama, instal dependensi yang diperlukan dengan pip
dengan menjalankan perintah berikut:
pip install ontogpt [web]
Kemudian jalankan perintah ini untuk memulai aplikasi web:
web- ontogpt
CATATAN: Kami tidak menyarankan hosting aplikasi web ini secara publik tanpa autentikasi.
ontogpt menggunakan paket litellm
(https://litellm.vercel.app/) untuk berinteraksi dengan LLM.
Ini berarti sebagian besar API didukung, termasuk OpenAI, Azure, Anthropic, Mistral, Replikasi, dan seterusnya.
Nama model yang akan digunakan dapat ditemukan dari perintah ontogpt list-models
- gunakan nama di kolom pertama dengan opsi --model
.
Dalam kebanyakan kasus, hal ini memerlukan pengaturan kunci API untuk layanan tertentu seperti di atas:
runoak set-apikey -e anthropic-key < your anthropic api key >
Beberapa titik akhir, seperti model OpenAI melalui Azure, memerlukan pengaturan detail tambahan. Ini dapat diatur dengan cara yang sama:
runoak set-apikey -e azure-key < your azure api key >
runoak set-apikey -e azure-base < your azure endpoint url >
runoak set-apikey -e azure-version < your azure api version, e.g. " 2023-05-15 " >
Detail ini juga dapat ditetapkan sebagai variabel lingkungan sebagai berikut:
export AZURE_API_KEY= " my-azure-api-key "
export AZURE_API_BASE= " https://example-endpoint.openai.azure.com "
export AZURE_API_VERSION= " 2023-05-15 "
LLM terbuka dapat diambil dan dijalankan melalui paket ollama
(https://ollama.com/).
Anda perlu menginstal ollama
(lihat repo GitHub), dan Anda mungkin perlu memulainya sebagai layanan dengan perintah seperti ollama serve
atau sudo systemctl start ollama
.
Kemudian ambil model dengan ollama pull <modelname>
, misalnya ollama pull llama3
.
Model kemudian dapat digunakan dalam ontogpt dengan mengawali namanya dengan ollama/
, misalnya ollama/llama3
, bersama dengan opsi --model
.
Beberapa model ollama mungkin tidak terdaftar dalam ontogpt list-models
tetapi daftar lengkap LLM yang diunduh dapat dilihat dengan perintah ollama list
.
Fungsi ontogpt telah dievaluasi pada data pengujian. Silakan lihat dokumentasi lengkap untuk rincian mengenai evaluasi ini dan cara mereproduksinya.
Pendekatan ekstraksi informasi yang digunakan dalam ontogpt , SPIRES, dijelaskan lebih lanjut dalam: Caufield JH, Hegde H, Emonet V, Harris NL, Joachimiak MP, Matentzoglu N, dkk. Interogasi cepat terstruktur dan ekstraksi semantik rekursif (SPIRES): Sebuah metode untuk mengisi basis pengetahuan menggunakan pembelajaran zero-shot. Bioinformatika , Volume 40, Edisi 3, Maret 2024, btae104, https://doi.org/10.1093/bioinformatics/btae104.
Proyek ini adalah bagian dari Inisiatif Monarch. Kami juga mengucapkan terima kasih kepada Bosch Research atas dukungan mereka terhadap proyek penelitian ini.