Munculnya pemrosesan bahasa alami dan model bahasa besar (LLM) telah merevolusi ekstraksi data dari makalah ilmiah yang tidak terstruktur. Namun, memastikan keandalan data masih merupakan tantangan besar. PropertyExtractor adalah alat sumber terbuka yang memanfaatkan LLM percakapan tingkat lanjut seperti Google Gemini Pro dan OpenAI GPT-4 , memadukan pembelajaran zero-shot dan beberapa-shot dalam konteks, dan menggunakan petunjuk rekayasa untuk penyempurnaan dinamis hierarki informasi terstruktur untuk memungkinkan otonomi Identifikasi, ekstraksi, dan verifikasi data properti material yang efisien, terukur, dan akurat untuk menghasilkan database properti material.
PropertyExtractor menawarkan opsi instalasi mudah yang sesuai untuk berbagai preferensi pengguna seperti dijelaskan di bawah. Kami mencatat bahwa semua perpustakaan dan dependable secara otomatis ditentukan dan diinstal bersama "propertyextract" yang dapat dieksekusi PropertyExtractor di semua opsi instalasi.
Menggunakan pip : Cara yang kami rekomendasikan untuk menginstal paket PropertyExtractor adalah menggunakan pip.
pip install -U propertyextract
Dari Kode Sumber :
git clone [[email protected]:gmp007/PropertyExtractor.git]
pip install .
Instalasi melalui setup.py :
setup.py
: python setup.py install [--prefix=/path/to/install/]
--prefix
berguna untuk instalasi di lingkungan seperti sistem Komputasi Kinerja Tinggi (HPC) bersama, di mana hak administratif mungkin dibatasi.pip
tidak berlaku. Harap jangan mengekspos kunci API Anda. Sebelum menjalankan PropertyExtractor , konfigurasikan kunci API untuk Google Gemini Pro dan OpenAI GPT-4 sebagai variabel lingkungan.
export GPT4_API_KEY= ' your_gpt4_api_key_here '
export GEMINI_PRO_API_KEY= ' your_gemini_pro_api_key_here '
set GPT4_API_KEY= ' your_gpt4_api_key_here '
set GEMINI_PRO_API_KEY= ' your_gemini_pro_api_key_here '
PropertyExtractor mudah dijalankan. Langkah-langkah penting untuk menginisialisasi PropertyExtractor adalah sebagai berikut:
Pembuatan data tidak terstruktur *: Gunakan API untuk mendapatkan properti material yang ingin Anda hasilkan databasenya dari penerbit pilihan Anda. Kami telah menulis fungsi API untuk ScienceDirect API Elsevier, CrossRef REST API, dan PubMed API. Kami dapat membagikan beberapa di antaranya jika diperlukan.
Buat Direktori Perhitungan :
propextract -0
untuk menghasilkan templat masukan utama PropertyExtractor , yaitu extract.in
. Ubah dengan mengikuti instruksi terperinci yang disertakan.additionalprompt.txt' for augmenting additional custom prompts and
kata kunci.json' untuk kata kunci tambahan khusus untuk mendukung kata kunci utama juga dibuat. Ubah agar sesuai dengan properti material yang diekstraksi. Templat masukan utama `extract.in' terlihat seperti di bawah ini: ###############################################################################
### The input file to control the calculation details of PropertyExtract ###
###############################################################################
# Type of LLM model: gemini/chatgpt
model_type = gemini
# LLM model name: gemini-pro/gpt-4
model_name = gemini-pro
# Property to extract from texts
property = thickness
# Harmonized unit for the property to be extracted
property_unit = Angstrom
# temperature to max_output_tokens are LLM model parameters
temperature = 0.0
top_p = 0.95
max_output_tokens = 80
# You can supply additional keywords to be used in conjunction with the property: modify the file keywords.json
use_keywords = True
# You can add additional custom prompts: modify the file additionalprompt.txt
additional_prompts = additionalprompt.txt
# Name of input file to be processed: csv/excel format
inputfile_name = 2Dthickness_Elsevier.csv
# Column name in the input file to be processed
column_name = Text
# Name of output file
outputfile_name = ppt_test
Inisialisasi Pekerjaan :
propextract
untuk memulai proses perhitungan.Memahami Opsi PropertyExtractor :
extract.in
menyertakan teks deskriptif untuk setiap tanda, sehingga mudah digunakan. Jika Anda telah menggunakan paket PropertyExtractor dalam penelitian Anda, harap kutip:
@article{Ekuma2024,
title = {Dynamic In-context Learning with Conversational Models for Data Extraction and Materials Property Prediction},
journal = {XXX},
volume = {xx},
pages = {xx},
year = {xx},
doi = {xx},
url = {xx},
author = {Chinedu Ekuma}
}
@misc{PropertyExtractor,
author = {Chinedu Ekuma},
title = {PropertyExtractor -- LLM-based model to extract material property from unstructured dataset},
year = {2024},
howpublished = { url {https://github.com/gmp007/PropertyExtractor}},
note = {Open-source tool leveraging LLMs like Google Gemini Pro and OpenAI GPT-4 for material property extraction},
}
Jika Anda memiliki pertanyaan atau menemukan bug, silakan hubungi kami.
Jangan ragu untuk menghubungi kami melalui email:
Masukan dan pertanyaan Anda sangat berharga bagi kami, dan kami menantikan tanggapan Anda.
Proyek ini dilisensikan di bawah GNU GPL versi 3 - lihat file LISENSI untuk detailnya.