La llegada del procesamiento del lenguaje natural y los grandes modelos de lenguaje (LLM) ha revolucionado la extracción de datos de artículos académicos no estructurados. Sin embargo, garantizar la confiabilidad de los datos sigue siendo un desafío importante. PropertyExtractor es una herramienta de código abierto que aprovecha los LLM conversacionales avanzados como Google Gemini Pro y OpenAI GPT-4 , combina el aprendizaje en contexto de cero intentos con pocos intentos y emplea indicaciones diseñadas para el refinamiento dinámico de jerarquías de información estructuradas para permitir la autonomía. Identificación, extracción y verificación eficiente, escalable y precisa de datos de propiedades materiales para generar una base de datos de propiedades materiales.
PropertyExtractor ofrece opciones de instalación sencillas adecuadas para diversas preferencias del usuario, como se explica a continuación. Observamos que todas las bibliotecas y elementos confiables se determinan e instalan automáticamente junto con el ejecutable "propertyextract" de PropertyExtractor en todas las opciones de instalación.
Usando pip : nuestra forma recomendada de instalar el paquete PropertyExtractor es usando pip.
pip install -U propertyextract
Del código fuente :
git clone [[email protected]:gmp007/PropertyExtractor.git]
pip install .
Instalación a través de setup.py :
setup.py
: python setup.py install [--prefix=/path/to/install/]
--prefix
es útil para instalaciones en entornos como sistemas compartidos de informática de alto rendimiento (HPC), donde los privilegios administrativos pueden estar restringidos.pip
no sean aplicables. No exponga sus claves API. Antes de ejecutar PropertyExtractor , configure las claves API para Google Gemini Pro y OpenAI GPT-4 como variables de entorno.
export GPT4_API_KEY= ' your_gpt4_api_key_here '
export GEMINI_PRO_API_KEY= ' your_gemini_pro_api_key_here '
set GPT4_API_KEY= ' your_gpt4_api_key_here '
set GEMINI_PRO_API_KEY= ' your_gemini_pro_api_key_here '
PropertyExtractor es fácil de ejecutar. Los pasos clave para inicializar PropertyExtractor son los siguientes:
Generación de datos no estructurados *: Utilice API para obtener la propiedad del material que desea generar en la base de datos de los editores de su elección. Hemos escrito funciones API para la API ScienceDirect, la API REST CrossRef y la API PubMed de Elsevier. Podemos compartir algunos de estos si es necesario.
Cree un directorio de cálculo :
propextract -0
para generar la plantilla de entrada principal de PropertyExtractor , que es extract.in
. Modifique siguiendo las instrucciones detalladas incluidas.additionalprompt.txt' for augmenting additional custom prompts and
palabras clave.json' para palabras clave adicionales personalizadas que admitan la palabra clave principal. Modificar para adaptarlo a la propiedad del material que se está extrayendo. La plantilla de entrada principal `extract.in' se parece a la siguiente: ###############################################################################
### The input file to control the calculation details of PropertyExtract ###
###############################################################################
# Type of LLM model: gemini/chatgpt
model_type = gemini
# LLM model name: gemini-pro/gpt-4
model_name = gemini-pro
# Property to extract from texts
property = thickness
# Harmonized unit for the property to be extracted
property_unit = Angstrom
# temperature to max_output_tokens are LLM model parameters
temperature = 0.0
top_p = 0.95
max_output_tokens = 80
# You can supply additional keywords to be used in conjunction with the property: modify the file keywords.json
use_keywords = True
# You can add additional custom prompts: modify the file additionalprompt.txt
additional_prompts = additionalprompt.txt
# Name of input file to be processed: csv/excel format
inputfile_name = 2Dthickness_Elsevier.csv
# Column name in the input file to be processed
column_name = Text
# Name of output file
outputfile_name = ppt_test
Inicializar el trabajo :
propextract
para comenzar el proceso de cálculo.Comprensión de las opciones de PropertyExtractor :
extract.in
incluye texto descriptivo para cada bandera, lo que lo hace fácil de usar. Si ha utilizado el paquete PropertyExtractor en su investigación, cite:
@article{Ekuma2024,
title = {Dynamic In-context Learning with Conversational Models for Data Extraction and Materials Property Prediction},
journal = {XXX},
volume = {xx},
pages = {xx},
year = {xx},
doi = {xx},
url = {xx},
author = {Chinedu Ekuma}
}
@misc{PropertyExtractor,
author = {Chinedu Ekuma},
title = {PropertyExtractor -- LLM-based model to extract material property from unstructured dataset},
year = {2024},
howpublished = { url {https://github.com/gmp007/PropertyExtractor}},
note = {Open-source tool leveraging LLMs like Google Gemini Pro and OpenAI GPT-4 for material property extraction},
}
Si tiene alguna pregunta o encuentra un error, comuníquese con nosotros.
No dude en contactarnos por correo electrónico:
Sus comentarios y preguntas son invaluables para nosotros y esperamos tener noticias suyas.
Este proyecto tiene la licencia GNU GPL versión 3; consulte el archivo de LICENCIA para obtener más detalles.