Появление обработки естественного языка и больших языковых моделей (LLM) произвело революцию в извлечении данных из неструктурированных научных статей. Однако обеспечение достоверности данных остается серьезной проблемой. PropertyExtractor — это инструмент с открытым исходным кодом, который использует передовые диалоговые LLM, такие как Google Gemini Pro и OpenAI GPT-4 , сочетает в себе нулевое обучение с малократным контекстным обучением и использует специально разработанные подсказки для динамического уточнения иерархий структурированной информации для обеспечения автономности. , эффективная, масштабируемая и точная идентификация, извлечение и проверка данных о свойствах материалов для создания базы данных о свойствах материалов.
PropertyExtractor предлагает простые варианты установки, подходящие для различных предпочтений пользователя, как описано ниже. Обратите внимание, что все библиотеки и зависимые компоненты автоматически определяются и устанавливаются вместе с исполняемым файлом PropertyExtractor «propertyextract» во всех вариантах установки.
Использование pip : Рекомендуемый способ установки пакета PropertyExtractor — использование pip.
pip install -U propertyextract
Из исходного кода :
git clone [[email protected]:gmp007/PropertyExtractor.git]
pip install .
Установка через setup.py :
setup.py
: python setup.py install [--prefix=/path/to/install/]
--prefix
полезен при установке в таких средах, как общие системы высокопроизводительных вычислений (HPC), где права администратора могут быть ограничены.pip
, неприменимы. Пожалуйста, не раскрывайте свои ключи API. Перед запуском PropertyExtractor настройте ключи API для Google Gemini Pro и OpenAI GPT-4 в качестве переменных среды.
export GPT4_API_KEY= ' your_gpt4_api_key_here '
export GEMINI_PRO_API_KEY= ' your_gemini_pro_api_key_here '
set GPT4_API_KEY= ' your_gpt4_api_key_here '
set GEMINI_PRO_API_KEY= ' your_gemini_pro_api_key_here '
PropertyExtractor легко запустить. Ключевые шаги для инициализации PropertyExtractor следующие:
Генерация неструктурированных данных *: используйте API для получения свойства материала, которое вы хотите создать в базе данных, от выбранных вами издателей. Мы написали функции API для API Elsevier ScienceDirect, API REST CrossRef и API PubMed. При необходимости мы можем поделиться некоторыми из них.
Создайте каталог вычислений :
propextract -0
чтобы сгенерировать основной входной шаблон PropertyExtractor , которым является extract.in
. Измените, следуя прилагаемым подробным инструкциям.additionalprompt.txt' for augmenting additional custom prompts and
ключевых слов.json для настраиваемых дополнительных ключевых слов для поддержки основного ключевого слова. Измените в соответствии с извлекаемым свойством материала. Основной входной шаблон «extract.in» выглядит следующим образом: ###############################################################################
### The input file to control the calculation details of PropertyExtract ###
###############################################################################
# Type of LLM model: gemini/chatgpt
model_type = gemini
# LLM model name: gemini-pro/gpt-4
model_name = gemini-pro
# Property to extract from texts
property = thickness
# Harmonized unit for the property to be extracted
property_unit = Angstrom
# temperature to max_output_tokens are LLM model parameters
temperature = 0.0
top_p = 0.95
max_output_tokens = 80
# You can supply additional keywords to be used in conjunction with the property: modify the file keywords.json
use_keywords = True
# You can add additional custom prompts: modify the file additionalprompt.txt
additional_prompts = additionalprompt.txt
# Name of input file to be processed: csv/excel format
inputfile_name = 2Dthickness_Elsevier.csv
# Column name in the input file to be processed
column_name = Text
# Name of output file
outputfile_name = ppt_test
Инициализируйте задание :
propextract
, чтобы начать процесс расчета.Понимание параметров PropertyExtractor :
extract.in
содержит описательный текст для каждого флага, что делает его удобным для пользователя. Если вы использовали пакет PropertyExtractor в своем исследовании, укажите:
@article{Ekuma2024,
title = {Dynamic In-context Learning with Conversational Models for Data Extraction and Materials Property Prediction},
journal = {XXX},
volume = {xx},
pages = {xx},
year = {xx},
doi = {xx},
url = {xx},
author = {Chinedu Ekuma}
}
@misc{PropertyExtractor,
author = {Chinedu Ekuma},
title = {PropertyExtractor -- LLM-based model to extract material property from unstructured dataset},
year = {2024},
howpublished = { url {https://github.com/gmp007/PropertyExtractor}},
note = {Open-source tool leveraging LLMs like Google Gemini Pro and OpenAI GPT-4 for material property extraction},
}
Если у вас есть какие-либо вопросы или вы обнаружили ошибку, свяжитесь с нами.
Не стесняйтесь обращаться к нам по электронной почте:
Ваши отзывы и вопросы бесценны для нас, и мы с нетерпением ждем вашего ответа.
Этот проект распространяется под лицензией GNU GPL версии 3 — подробности см. в файле ЛИЦЕНЗИИ.