自然言語処理と大規模言語モデル (LLM) の出現により、非構造化学術論文からのデータ抽出に革命が起こりました。ただし、データの信頼性を確保することは依然として大きな課題です。 PropertyExtractorは、 Google Gemini ProやOpenAI GPT-4などの高度な会話型 LLM を活用し、ゼロショットと少数ショットのコンテキスト内学習を融合し、構造化された情報階層を動的に改良するための設計されたプロンプトを採用して自律的な学習を可能にするオープンソース ツールです。 、材料特性データベースを生成するための材料特性データの効率的、スケーラブル、正確な識別、抽出、および検証。
PropertyExtractor は、以下で説明するように、さまざまなユーザー設定に適した簡単なインストール オプションを提供します。すべてのライブラリと依存関係は自動的に決定され、すべてのインストール オプションで PropertyExtractor 実行可能ファイル「propertyextract」と一緒にインストールされることに注意してください。
pip の使用: PropertyExtractorパッケージをインストールする推奨方法は、pip を使用することです。
pip install -U propertyextract
ソースコードから:
git clone [[email protected]:gmp007/PropertyExtractor.git]
pip install .
setup.py によるインストール:
setup.py
スクリプトを使用してインストールすることもできます。 python setup.py install [--prefix=/path/to/install/]
--prefix
引数は、管理特権が制限される可能性がある共有ハイ パフォーマンス コンピューティング (HPC) システムなどの環境にインストールする場合に役立ちます。pip
などの標準のインストール方法が適用できない場合にのみ推奨されます。 API キーを公開しないでください。 PropertyExtractorを実行する前に、Google Gemini Pro および OpenAI GPT-4 の API キーを環境変数として構成します。
export GPT4_API_KEY= ' your_gpt4_api_key_here '
export GEMINI_PRO_API_KEY= ' your_gemini_pro_api_key_here '
set GPT4_API_KEY= ' your_gpt4_api_key_here '
set GEMINI_PRO_API_KEY= ' your_gemini_pro_api_key_here '
PropertyExtractor は実行が簡単です。 PropertyExtractor を初期化するための主な手順は次のとおりです。
非構造化データの生成*: API を使用して、選択したパブリッシャーからデータベースを生成するマテリアル プロパティを取得します。私たちは、Elsevier の ScienceDirect API、CrossRef REST API、および PubMed API 用の API 関数を作成しました。必要に応じて、これらの一部を共有できます。
計算ディレクトリを作成します。
propextract -0
を実行して、 PropertyExtractorのメイン入力テンプレート ( extract.in
を生成します。付属の詳細な手順に従って変更してください。additionalprompt.txt' for augmenting additional custom prompts and
プライマリ キーワードをサポートするためのカスタム追加キーワード用のキーワード.json などのオプション ファイルも生成されます。抽出する材料特性に合わせて変更します。メインの入力テンプレート「extract.in」は次のようになります。 ###############################################################################
### The input file to control the calculation details of PropertyExtract ###
###############################################################################
# Type of LLM model: gemini/chatgpt
model_type = gemini
# LLM model name: gemini-pro/gpt-4
model_name = gemini-pro
# Property to extract from texts
property = thickness
# Harmonized unit for the property to be extracted
property_unit = Angstrom
# temperature to max_output_tokens are LLM model parameters
temperature = 0.0
top_p = 0.95
max_output_tokens = 80
# You can supply additional keywords to be used in conjunction with the property: modify the file keywords.json
use_keywords = True
# You can add additional custom prompts: modify the file additionalprompt.txt
additional_prompts = additionalprompt.txt
# Name of input file to be processed: csv/excel format
inputfile_name = 2Dthickness_Elsevier.csv
# Column name in the input file to be processed
column_name = Text
# Name of output file
outputfile_name = ppt_test
ジョブを初期化します。
propextract
実行して計算プロセスを開始します。PropertyExtractor オプションを理解する:
extract.in
は、各フラグの説明テキストが含まれているため、使いやすくなっています。 研究でPropertyExtractorパッケージを使用した場合は、以下を引用してください。
@article{Ekuma2024,
title = {Dynamic In-context Learning with Conversational Models for Data Extraction and Materials Property Prediction},
journal = {XXX},
volume = {xx},
pages = {xx},
year = {xx},
doi = {xx},
url = {xx},
author = {Chinedu Ekuma}
}
@misc{PropertyExtractor,
author = {Chinedu Ekuma},
title = {PropertyExtractor -- LLM-based model to extract material property from unstructured dataset},
year = {2024},
howpublished = { url {https://github.com/gmp007/PropertyExtractor}},
note = {Open-source tool leveraging LLMs like Google Gemini Pro and OpenAI GPT-4 for material property extraction},
}
ご質問がある場合、またはバグを見つけた場合は、お気軽にお問い合わせください。
お気軽にメールでお問い合わせください:
皆様からのフィードバックやご質問は私たちにとって非常に貴重なものですので、お待ちしております。
このプロジェクトは GNU GPL バージョン 3 に基づいてライセンスされています。詳細については、LICENSE ファイルを参照してください。