لقد أحدث ظهور معالجة اللغة الطبيعية ونماذج اللغة الكبيرة (LLMs) ثورة في استخراج البيانات من الأوراق العلمية غير المنظمة. ومع ذلك، يظل ضمان مصداقية البيانات تحديًا كبيرًا. إن PropertyExtractor عبارة عن أداة مفتوحة المصدر تعمل على تعزيز دورات LLM التحادثية المتقدمة مثل Google Gemini Pro و OpenAI GPT-4 ، وتمزج بين التعلم الصفري والتعلم في السياق قليل اللقطات، وتستخدم مطالبات هندسية للتحسين الديناميكي للتسلسلات الهرمية للمعلومات المنظمة لتمكين التشغيل الذاتي تحديد واستخراج والتحقق من بيانات خصائص المواد بشكل فعال وقابل للتطوير ودقيق لإنشاء قاعدة بيانات خصائص المواد.
يوفر PropertyExtractor خيارات تثبيت مباشرة تناسب تفضيلات المستخدم المختلفة كما هو موضح أدناه. نلاحظ أن جميع المكتبات والعناصر المعتمدة يتم تحديدها وتثبيتها تلقائيًا جنبًا إلى جنب مع "propertyextract" القابل للتنفيذ الخاص بـ PropertyExtractor في جميع خيارات التثبيت.
استخدام النقطة : الطريقة الموصى بها لتثبيت حزمة PropertyExtractor هي استخدام النقطة.
pip install -U propertyextract
من كود المصدر :
git clone [[email protected]:gmp007/PropertyExtractor.git]
pip install .
التثبيت عبر setup.py :
setup.py
: python setup.py install [--prefix=/path/to/install/]
--prefix
الاختيارية مفيدة لعمليات التثبيت في بيئات مثل أنظمة الحوسبة عالية الأداء (HPC) المشتركة، حيث قد تكون الامتيازات الإدارية مقيدة.pip
قابلة للتطبيق. من فضلك لا تكشف عن مفاتيح API الخاصة بك. قبل تشغيل PropertyExtractor ، قم بتكوين مفاتيح API لـ Google Gemini Pro وOpenAI GPT-4 كمتغيرات بيئة.
export GPT4_API_KEY= ' your_gpt4_api_key_here '
export GEMINI_PRO_API_KEY= ' your_gemini_pro_api_key_here '
set GPT4_API_KEY= ' your_gpt4_api_key_here '
set GEMINI_PRO_API_KEY= ' your_gemini_pro_api_key_here '
من السهل تشغيل PropertyExtractor . فيما يلي الخطوات الأساسية لتهيئة PropertyExtractor :
إنشاء بيانات غير منظمة *: استخدم واجهة برمجة التطبيقات (API) للحصول على خاصية المادة التي تريد إنشاء قاعدة البيانات من الناشرين الذين تختارهم. لقد كتبنا وظائف واجهة برمجة التطبيقات (API) لواجهة برمجة تطبيقات ScienceDirect API وCrossRef REST API وPubMed API من Elsevier. يمكننا مشاركة بعض هذه إذا لزم الأمر.
إنشاء دليل الحسابات :
propextract -0
لإنشاء قالب الإدخال الرئيسي لـ PropertyExtractor ، وهو extract.in
. قم بالتعديل باتباع التعليمات التفصيلية المضمنة.additionalprompt.txt' for augmenting additional custom prompts and
keywords.json للكلمات الرئيسية الإضافية المخصصة لدعم الكلمة الأساسية الأساسية. التعديل ليناسب خاصية المادة التي يتم استخراجها. يبدو قالب الإدخال الرئيسي "extract.in" كما يلي: ###############################################################################
### The input file to control the calculation details of PropertyExtract ###
###############################################################################
# Type of LLM model: gemini/chatgpt
model_type = gemini
# LLM model name: gemini-pro/gpt-4
model_name = gemini-pro
# Property to extract from texts
property = thickness
# Harmonized unit for the property to be extracted
property_unit = Angstrom
# temperature to max_output_tokens are LLM model parameters
temperature = 0.0
top_p = 0.95
max_output_tokens = 80
# You can supply additional keywords to be used in conjunction with the property: modify the file keywords.json
use_keywords = True
# You can add additional custom prompts: modify the file additionalprompt.txt
additional_prompts = additionalprompt.txt
# Name of input file to be processed: csv/excel format
inputfile_name = 2Dthickness_Elsevier.csv
# Column name in the input file to be processed
column_name = Text
# Name of output file
outputfile_name = ppt_test
تهيئة الوظيفة :
propextract
لبدء عملية الحساب.فهم خيارات PropertyExtractor :
extract.in
نصًا وصفيًا لكل علامة، مما يجعله سهل الاستخدام. إذا كنت قد استخدمت حزمة PropertyExtractor في بحثك، فيرجى ذكر ما يلي:
@article{Ekuma2024,
title = {Dynamic In-context Learning with Conversational Models for Data Extraction and Materials Property Prediction},
journal = {XXX},
volume = {xx},
pages = {xx},
year = {xx},
doi = {xx},
url = {xx},
author = {Chinedu Ekuma}
}
@misc{PropertyExtractor,
author = {Chinedu Ekuma},
title = {PropertyExtractor -- LLM-based model to extract material property from unstructured dataset},
year = {2024},
howpublished = { url {https://github.com/gmp007/PropertyExtractor}},
note = {Open-source tool leveraging LLMs like Google Gemini Pro and OpenAI GPT-4 for material property extraction},
}
إذا كان لديك أي أسئلة أو إذا وجدت خطأ، يرجى التواصل معنا.
لا تتردد في الاتصال بنا عبر البريد الإلكتروني:
تعليقاتك وأسئلتك لا تقدر بثمن بالنسبة لنا، ونحن نتطلع إلى الاستماع منك.
هذا المشروع مرخص بموجب الإصدار 3 من GNU GPL - راجع ملف الترخيص للحصول على التفاصيل.