การเกิดขึ้นของการประมวลผลภาษาธรรมชาติและแบบจำลองภาษาขนาดใหญ่ (LLM) ได้ปฏิวัติการดึงข้อมูลจากเอกสารทางวิชาการที่ไม่มีโครงสร้าง อย่างไรก็ตาม การรับรองความน่าเชื่อถือของข้อมูลยังคงเป็นความท้าทายที่สำคัญ PropertyExtractor เป็นเครื่องมือโอเพ่นซอร์สที่ใช้ประโยชน์จาก LLM การสนทนาขั้นสูง เช่น Google Gemini Pro และ OpenAI GPT-4 ผสมผสาน Zero-shot กับการเรียนรู้ในบริบทไม่กี่ครั้ง และใช้พร้อมต์ทางวิศวกรรมสำหรับการปรับแต่งไดนามิกของลำดับชั้นข้อมูลที่มีโครงสร้างเพื่อเปิดใช้งานการทำงานอัตโนมัติ การระบุ การสกัด และการตรวจสอบข้อมูลคุณสมบัติของวัสดุที่มีประสิทธิภาพ ปรับขนาดได้ และแม่นยำ เพื่อสร้างฐานข้อมูลคุณสมบัติของวัสดุ
PropertyExtractor นำเสนอตัวเลือกการติดตั้งที่ไม่ซับซ้อนซึ่งเหมาะสมกับความต้องการของผู้ใช้ที่หลากหลาย ตามที่อธิบายไว้ด้านล่าง เราทราบว่าไลบรารีและทรัพยากรที่เชื่อถือได้ทั้งหมดถูกกำหนดและติดตั้งโดยอัตโนมัติควบคู่ไปกับ "propertyextract" ที่เรียกใช้งานได้ของ PropertyExtractor ในตัวเลือกการติดตั้งทั้งหมด
การใช้ pip : วิธีที่เราแนะนำในการติดตั้งแพ็คเกจ PropertyExtractor คือการใช้ pip
pip install -U propertyextract
จากซอร์สโค้ด :
git clone [[email protected]:gmp007/PropertyExtractor.git]
pip install .
การติดตั้งผ่าน setup.py :
setup.py
: python setup.py install [--prefix=/path/to/install/]
--prefix
มีประโยชน์สำหรับการติดตั้งในสภาพแวดล้อม เช่น ระบบคอมพิวเตอร์ประสิทธิภาพสูง (HPC) ที่ใช้ร่วมกัน ซึ่งสิทธิ์ผู้ดูแลระบบอาจถูกจำกัดpip
ไม่สามารถใช้งานได้ โปรดอย่าเปิดเผยคีย์ API ของคุณ ก่อนที่จะรัน PropertyExtractor ให้กำหนดค่าคีย์ API สำหรับ Google Gemini Pro และ OpenAI GPT-4 เป็นตัวแปรสภาพแวดล้อม
export GPT4_API_KEY= ' your_gpt4_api_key_here '
export GEMINI_PRO_API_KEY= ' your_gemini_pro_api_key_here '
set GPT4_API_KEY= ' your_gpt4_api_key_here '
set GEMINI_PRO_API_KEY= ' your_gemini_pro_api_key_here '
PropertyExtractor ใช้งานง่าย ขั้นตอนสำคัญสำหรับการเริ่มต้น PropertyExtractor มีดังนี้:
การสร้างข้อมูลแบบไม่มีโครงสร้าง *: ใช้ API เพื่อรับคุณสมบัติของวัสดุที่คุณต้องการสร้างฐานข้อมูลจากผู้เผยแพร่ที่คุณเลือก เราได้เขียนฟังก์ชัน API สำหรับ ScienceDirect API, CrossRef REST API และ PubMed API ของ Elsevier เราสามารถแบ่งปันสิ่งเหล่านี้บางส่วนได้หากจำเป็น
สร้างไดเร็กทอรีการคำนวณ :
propextract -0
เพื่อสร้างเทมเพลตอินพุตหลักของ PropertyExtractor ซึ่งก็คือ extract.in
แก้ไขตามคำแนะนำโดยละเอียดรวมอยู่ด้วยadditionalprompt.txt' for augmenting additional custom prompts and
keywords.json' สำหรับคีย์เวิร์ดเพิ่มเติมแบบกำหนดเองเพื่อรองรับคีย์เวิร์ดหลักก็ถูกสร้างขึ้นเช่นกัน ปรับเปลี่ยนให้เหมาะสมกับคุณสมบัติของวัสดุที่จะสกัด เทมเพลตอินพุตหลัก `extract.in' มีลักษณะดังนี้: ###############################################################################
### The input file to control the calculation details of PropertyExtract ###
###############################################################################
# Type of LLM model: gemini/chatgpt
model_type = gemini
# LLM model name: gemini-pro/gpt-4
model_name = gemini-pro
# Property to extract from texts
property = thickness
# Harmonized unit for the property to be extracted
property_unit = Angstrom
# temperature to max_output_tokens are LLM model parameters
temperature = 0.0
top_p = 0.95
max_output_tokens = 80
# You can supply additional keywords to be used in conjunction with the property: modify the file keywords.json
use_keywords = True
# You can add additional custom prompts: modify the file additionalprompt.txt
additional_prompts = additionalprompt.txt
# Name of input file to be processed: csv/excel format
inputfile_name = 2Dthickness_Elsevier.csv
# Column name in the input file to be processed
column_name = Text
# Name of output file
outputfile_name = ppt_test
เริ่มต้นงาน :
propextract
เพื่อเริ่มกระบวนการคำนวณทำความเข้าใจกับตัวเลือก PropertyExtractor :
extract.in
มีข้อความอธิบายสำหรับแต่ละแฟล็ก ทำให้ใช้งานง่าย หากคุณใช้แพ็คเกจ PropertyExtractor ในการวิจัยของคุณ โปรดอ้างอิง:
@article{Ekuma2024,
title = {Dynamic In-context Learning with Conversational Models for Data Extraction and Materials Property Prediction},
journal = {XXX},
volume = {xx},
pages = {xx},
year = {xx},
doi = {xx},
url = {xx},
author = {Chinedu Ekuma}
}
@misc{PropertyExtractor,
author = {Chinedu Ekuma},
title = {PropertyExtractor -- LLM-based model to extract material property from unstructured dataset},
year = {2024},
howpublished = { url {https://github.com/gmp007/PropertyExtractor}},
note = {Open-source tool leveraging LLMs like Google Gemini Pro and OpenAI GPT-4 for material property extraction},
}
หากคุณมีคำถามหรือพบข้อบกพร่อง โปรดติดต่อเรา
โปรดติดต่อเราผ่านทางอีเมล:
ความคิดเห็นและคำถามของคุณมีค่ามากสำหรับเรา และเราหวังว่าจะได้รับการติดต่อจากคุณ
โครงการนี้ได้รับอนุญาตภายใต้ GNU GPL เวอร์ชัน 3 - ดูรายละเอียดในไฟล์ใบอนุญาต