ดาวน์โหลด PropertyExtractor - ดาวน์โหลดซอร์สโค้ด PropertyExtractor

PropertyExtractor

ซอร์สโค้ดอื่น ๆ

v1.0

ดาวน์โหลด

PropertyExtractor: เครื่องมือที่ใช้การสนทนา LLM แบบโอเพ่นซอร์ส

การแนะนำ

การเกิดขึ้นของการประมวลผลภาษาธรรมชาติและแบบจำลองภาษาขนาดใหญ่ (LLM) ได้ปฏิวัติการดึงข้อมูลจากเอกสารทางวิชาการที่ไม่มีโครงสร้าง อย่างไรก็ตาม การรับรองความน่าเชื่อถือของข้อมูลยังคงเป็นความท้าทายที่สำคัญ PropertyExtractor เป็นเครื่องมือโอเพ่นซอร์สที่ใช้ประโยชน์จาก LLM การสนทนาขั้นสูง เช่น Google Gemini Pro และ OpenAI GPT-4 ผสมผสาน Zero-shot กับการเรียนรู้ในบริบทไม่กี่ครั้ง และใช้พร้อมต์ทางวิศวกรรมสำหรับการปรับแต่งไดนามิกของลำดับชั้นข้อมูลที่มีโครงสร้างเพื่อเปิดใช้งานการทำงานอัตโนมัติ การระบุ การสกัด และการตรวจสอบข้อมูลคุณสมบัติของวัสดุที่มีประสิทธิภาพ ปรับขนาดได้ และแม่นยำ เพื่อสร้างฐานข้อมูลคุณสมบัติของวัสดุ

คุณสมบัติ

การรวม LLM ขั้นสูง : รองรับทั้ง Google Gemini Pro และ OpenAI GPT-4
การเรียนรู้แบบ Zero-shot และ Few-shot : ผสมผสานการเรียนรู้ในบริบทเพื่อความแม่นยำในการสกัดที่ดีขึ้น
Engineered Prompts : การปรับแต่งไดนามิกของลำดับชั้นข้อมูลที่มีโครงสร้าง
การสกัดอัตโนมัติ : การระบุและการสกัดคุณสมบัติของวัสดุที่มีประสิทธิภาพและปรับขนาดได้
ความแม่นยำและการเรียกคืนสูง : ให้ความแม่นยำและการเรียกคืนมากกว่า 90% โดยมีอัตราข้อผิดพลาดประมาณ 10%

การติดตั้ง

PropertyExtractor นำเสนอตัวเลือกการติดตั้งที่ไม่ซับซ้อนซึ่งเหมาะสมกับความต้องการของผู้ใช้ที่หลากหลาย ตามที่อธิบายไว้ด้านล่าง เราทราบว่าไลบรารีและทรัพยากรที่เชื่อถือได้ทั้งหมดถูกกำหนดและติดตั้งโดยอัตโนมัติควบคู่ไปกับ "propertyextract" ที่เรียกใช้งานได้ของ PropertyExtractor ในตัวเลือกการติดตั้งทั้งหมด

การใช้ pip : วิธีที่เราแนะนำในการติดตั้งแพ็คเกจ PropertyExtractor คือการใช้ pip
- ติดตั้งเวอร์ชันล่าสุดของแพ็คเกจ PropertyExtractor อย่างรวดเร็วด้วย pip โดยดำเนินการ:
```
 pip install -U propertyextract
```
จากซอร์สโค้ด :
- หรืออีกทางหนึ่ง ผู้ใช้สามารถดาวน์โหลดซอร์สโค้ดด้วย:
```
 git clone [[email protected]:gmp007/PropertyExtractor.git]
```
- จากนั้น ติดตั้ง PropertyExtractor โดยไปที่ไดเร็กทอรีหลักและรัน:
```
 pip install .
```
การติดตั้งผ่าน setup.py :
- PropertyExtractor สามารถติดตั้งได้โดยใช้สคริปต์ setup.py :
```
 python setup.py install [--prefix=/path/to/install/]
```
- อาร์กิวเมนต์ทางเลือก --prefix มีประโยชน์สำหรับการติดตั้งในสภาพแวดล้อม เช่น ระบบคอมพิวเตอร์ประสิทธิภาพสูง (HPC) ที่ใช้ร่วมกัน ซึ่งสิทธิ์ผู้ดูแลระบบอาจถูกจำกัด
- โปรดทราบว่าแม้ว่าวิธีการนี้จะยังคงได้รับการสนับสนุน แต่การใช้งานก็ค่อยๆ ลดลง เนื่องจากหันไปใช้วิธีปฏิบัติในการติดตั้งที่ทันสมัยกว่า เราขอแนะนำตัวเลือกการติดตั้งนี้เฉพาะในกรณีที่วิธีการติดตั้งมาตรฐานเช่น pip ไม่สามารถใช้งานได้

การใช้งาน

การกำหนดค่า

โปรดอย่าเปิดเผยคีย์ API ของคุณ ก่อนที่จะรัน PropertyExtractor ให้กำหนดค่าคีย์ API สำหรับ Google Gemini Pro และ OpenAI GPT-4 เป็นตัวแปรสภาพแวดล้อม

บนลินุกซ์/macOS

 export GPT4_API_KEY= ' your_gpt4_api_key_here '
export GEMINI_PRO_API_KEY= ' your_gemini_pro_api_key_here '

บนวินโดวส์

 set GPT4_API_KEY= ' your_gpt4_api_key_here '
set GEMINI_PRO_API_KEY= ' your_gemini_pro_api_key_here '

การใช้งานและการรัน PropertyExtractor

PropertyExtractor ใช้งานง่าย ขั้นตอนสำคัญสำหรับการเริ่มต้น PropertyExtractor มีดังนี้:

การสร้างข้อมูลแบบไม่มีโครงสร้าง *: ใช้ API เพื่อรับคุณสมบัติของวัสดุที่คุณต้องการสร้างฐานข้อมูลจากผู้เผยแพร่ที่คุณเลือก เราได้เขียนฟังก์ชัน API สำหรับ ScienceDirect API, CrossRef REST API และ PubMed API ของ Elsevier เราสามารถแบ่งปันสิ่งเหล่านี้บางส่วนได้หากจำเป็น
สร้างไดเร็กทอรีการคำนวณ :
- เริ่มต้นด้วยการสร้างไดเร็กทอรีสำหรับการคำนวณของคุณ
- รัน propextract -0 เพื่อสร้างเทมเพลตอินพุตหลักของ PropertyExtractor ซึ่งก็คือ extract.in แก้ไขตามคำแนะนำโดยละเอียดรวมอยู่ด้วย
- ไฟล์ทางเลือก เช่น additionalprompt.txt' for augmenting additional custom prompts and keywords.json' สำหรับคีย์เวิร์ดเพิ่มเติมแบบกำหนดเองเพื่อรองรับคีย์เวิร์ดหลักก็ถูกสร้างขึ้นเช่นกัน ปรับเปลี่ยนให้เหมาะสมกับคุณสมบัติของวัสดุที่จะสกัด เทมเพลตอินพุตหลัก `extract.in' มีลักษณะดังนี้:
```
 ###############################################################################
 ### The input file to control the calculation details of PropertyExtract    ###
 ###############################################################################
 # Type of LLM model: gemini/chatgpt 
 model_type = gemini
 # LLM model name: gemini-pro/gpt-4
 model_name = gemini-pro
 # Property to extract from texts
 property = thickness
 # Harmonized unit for the property to be extracted
 property_unit = Angstrom
 # temperature to max_output_tokens are LLM model parameters
 temperature = 0.0
 top_p = 0.95
 max_output_tokens = 80
 # You can supply additional keywords to be used in conjunction with the property: modify the file keywords.json
 use_keywords = True
 # You can add additional custom prompts: modify the file additionalprompt.txt
 additional_prompts = additionalprompt.txt
 # Name of input file to be processed: csv/excel format
 inputfile_name = 2Dthickness_Elsevier.csv
 # Column name in the input file to be processed
 column_name = Text
 # Name of output file
 outputfile_name = ppt_test
```
เริ่มต้นงาน :
- ดำเนินการ propextract เพื่อเริ่มกระบวนการคำนวณ
ทำความเข้าใจกับตัวเลือก PropertyExtractor :
- ไฟล์อินพุตหลัก extract.in มีข้อความอธิบายสำหรับแต่ละแฟล็ก ทำให้ใช้งานง่าย

อ้างถึง PropertyExtractor

หากคุณใช้แพ็คเกจ PropertyExtractor ในการวิจัยของคุณ โปรดอ้างอิง:

การเรียนรู้ในบริบทแบบไดนามิกด้วยแบบจำลองการสนทนาสำหรับการดึงข้อมูลและการทำนายคุณสมบัติของวัสดุ -

@article{Ekuma2024,
  title = {Dynamic In-context Learning with Conversational Models for Data Extraction and Materials Property Prediction},
  journal = {XXX},
  volume = {xx},
  pages = {xx},
  year = {xx},
  doi = {xx},
  url = {xx},
  author = {Chinedu Ekuma}
}

@misc{PropertyExtractor,
  author = {Chinedu Ekuma},
  title = {PropertyExtractor -- LLM-based model to extract material property from unstructured dataset},
  year = {2024},
  howpublished = { url {https://github.com/gmp007/PropertyExtractor}},
  note = {Open-source tool leveraging LLMs like Google Gemini Pro and OpenAI GPT-4 for material property extraction},
}