Das Aufkommen der Verarbeitung natürlicher Sprache und großer Sprachmodelle (LLMs) hat die Extraktion von Daten aus unstrukturierten wissenschaftlichen Arbeiten revolutioniert. Die Gewährleistung der Vertrauenswürdigkeit der Daten bleibt jedoch eine große Herausforderung. PropertyExtractor ist ein Open-Source-Tool, das fortschrittliche Konversations-LLMs wie Google Gemini Pro und OpenAI GPT-4 nutzt, Zero-Shot- und Few-Shot-In-Context-Lernen kombiniert und technische Eingabeaufforderungen für die dynamische Verfeinerung strukturierter Informationshierarchien verwendet, um Autonomie zu ermöglichen , effiziente, skalierbare und genaue Identifizierung, Extraktion und Überprüfung von Materialeigenschaftsdaten zur Erstellung einer Materialeigenschaftsdatenbank.
PropertyExtractor bietet unkomplizierte Installationsoptionen, die für verschiedene Benutzerpräferenzen geeignet sind, wie unten erläutert. Wir weisen darauf hin, dass alle Bibliotheken und Abhängigkeiten automatisch ermittelt und zusammen mit der ausführbaren PropertyExtractor-Datei „propertyextract“ in allen Installationsoptionen installiert werden.
Verwendung von pip : Unsere empfohlene Methode zur Installation des PropertyExtractor- Pakets ist die Verwendung von pip.
pip install -U propertyextract
Aus dem Quellcode :
git clone [[email protected]:gmp007/PropertyExtractor.git]
pip install .
Installation über setup.py :
setup.py
installiert werden: python setup.py install [--prefix=/path/to/install/]
--prefix
ist nützlich für Installationen in Umgebungen wie gemeinsam genutzten High-Performance-Computing-Systemen (HPC), in denen Administratorrechte möglicherweise eingeschränkt sind.pip
nicht anwendbar sind. Bitte geben Sie Ihre API-Schlüssel nicht preis. Konfigurieren Sie vor dem Ausführen von PropertyExtractor die API-Schlüssel für Google Gemini Pro und OpenAI GPT-4 als Umgebungsvariablen.
export GPT4_API_KEY= ' your_gpt4_api_key_here '
export GEMINI_PRO_API_KEY= ' your_gemini_pro_api_key_here '
set GPT4_API_KEY= ' your_gpt4_api_key_here '
set GEMINI_PRO_API_KEY= ' your_gemini_pro_api_key_here '
PropertyExtractor ist einfach auszuführen. Die wichtigsten Schritte zum Initialisieren von PropertyExtractor sind wie folgt:
Unstrukturierte Datengenerierung *: Verwenden Sie die API, um die Materialeigenschaft zu erhalten, mit der Sie die Datenbank von den Herausgebern Ihrer Wahl generieren möchten. Wir haben API-Funktionen für Elseviers ScienceDirect API, CrossRef REST API und PubMed API geschrieben. Bei Bedarf können wir einige davon weitergeben.
Erstellen Sie ein Berechnungsverzeichnis :
propextract -0
aus, um die Haupteingabevorlage des PropertyExtractor zu generieren, nämlich extract.in
. Nehmen Sie die Änderungen gemäß den beigefügten detaillierten Anweisungen vor.additionalprompt.txt' for augmenting additional custom prompts and
„keywords.json“ für benutzerdefinierte zusätzliche Schlüsselwörter zur Unterstützung des primären Schlüsselworts werden ebenfalls generiert. Passen Sie es an die zu extrahierende Materialeigenschaft an. Die Haupteingabevorlage „extract.in“ sieht wie folgt aus: ###############################################################################
### The input file to control the calculation details of PropertyExtract ###
###############################################################################
# Type of LLM model: gemini/chatgpt
model_type = gemini
# LLM model name: gemini-pro/gpt-4
model_name = gemini-pro
# Property to extract from texts
property = thickness
# Harmonized unit for the property to be extracted
property_unit = Angstrom
# temperature to max_output_tokens are LLM model parameters
temperature = 0.0
top_p = 0.95
max_output_tokens = 80
# You can supply additional keywords to be used in conjunction with the property: modify the file keywords.json
use_keywords = True
# You can add additional custom prompts: modify the file additionalprompt.txt
additional_prompts = additionalprompt.txt
# Name of input file to be processed: csv/excel format
inputfile_name = 2Dthickness_Elsevier.csv
# Column name in the input file to be processed
column_name = Text
# Name of output file
outputfile_name = ppt_test
Initialisieren Sie den Job :
propextract
aus, um den Berechnungsprozess zu starten.PropertyExtractor-Optionen verstehen :
extract.in
enthält beschreibenden Text für jedes Flag und macht es so benutzerfreundlich. Wenn Sie das PropertyExtractor- Paket bei Ihrer Recherche verwendet haben, geben Sie bitte Folgendes an:
@article{Ekuma2024,
title = {Dynamic In-context Learning with Conversational Models for Data Extraction and Materials Property Prediction},
journal = {XXX},
volume = {xx},
pages = {xx},
year = {xx},
doi = {xx},
url = {xx},
author = {Chinedu Ekuma}
}
@misc{PropertyExtractor,
author = {Chinedu Ekuma},
title = {PropertyExtractor -- LLM-based model to extract material property from unstructured dataset},
year = {2024},
howpublished = { url {https://github.com/gmp007/PropertyExtractor}},
note = {Open-source tool leveraging LLMs like Google Gemini Pro and OpenAI GPT-4 for material property extraction},
}
Wenn Sie Fragen haben oder einen Fehler finden, wenden Sie sich bitte an uns.
Kontaktieren Sie uns gerne per E-Mail:
Ihr Feedback und Ihre Fragen sind für uns von unschätzbarem Wert und wir freuen uns darauf, von Ihnen zu hören.
Dieses Projekt ist unter der GNU GPL Version 3 lizenziert – Einzelheiten finden Sie in der LIZENZ-Datei.