ดาวน์โหลด EasyInstruct - ดาวน์โหลดซอร์สโค้ด EasyInstruct

EasyInstruct

โค้ดแหล่งที่มา AI

1.0.0

ดาวน์โหลด

กรอบการประมวลผลคำสั่งที่ใช้งานง่ายสำหรับโมเดลภาษาขนาดใหญ่

โครงการ • กระดาษ • การสาธิต • ภาพรวม • การติดตั้ง • การเริ่มต้นอย่างรวดเร็ว • วิธีการใช้งาน • เอกสาร • วีดีโอ • การอ้างอิง • ผู้ร่วมให้ข้อมูล

สารบัญ

มีอะไรใหม่
ภาพรวม
การติดตั้ง
เริ่มต้นอย่างรวดเร็ว
- เชลล์สคริปต์
- แอพกราดิโอ
ใช้ EasyInstruct
- เครื่องกำเนิดไฟฟ้า
- ตัวเลือก
- แจ้ง
- เครื่องยนต์
การอ้างอิง
ผู้ร่วมให้ข้อมูล

?ข่าว

04-06-2024 EasyInstruct ได้รับการยอมรับจาก ACL 2024 System Demonstration Track -
06-02-2024 เราเผยแพร่รายงานใหม่: "EasyInstruct: กรอบการประมวลผลคำสั่งที่ใช้งานง่ายสำหรับโมเดลภาษาขนาดใหญ่" พร้อมการสาธิต HF EasyInstruct
06-02-2024 เราเปิดตัวเครื่องมือเบื้องต้น EasyDetect สำหรับการตรวจจับอาการประสาทหลอน พร้อมการสาธิต
05-02-2024 เราเปิดตัวเวอร์ชัน 0.1.2 ซึ่งรองรับคุณสมบัติใหม่และเพิ่มประสิทธิภาพอินเทอร์เฟซของฟังก์ชัน
09-12-2023 บทความ "โปรแกรมแห่งความคิดใช้ได้ผลสำหรับการให้เหตุผลเมื่อใด" (สนับสนุนโดย EasyInstruct) ได้รับการยอมรับจาก AAAI 2024!
28-10-2566 เราเปิดตัวเวอร์ชัน 0.1.1 ซึ่งรองรับคุณสมบัติใหม่ของการสร้างคำสั่งและการเลือกคำสั่ง
09-08-2023 เราเปิดตัวเวอร์ชัน 0.0.6 ซึ่งรองรับการเรียก Cohere API
12-07-2023 เราเปิดตัว EasyEdit ซึ่งเป็นเฟรมเวิร์กที่ใช้งานง่ายสำหรับแก้ไขโมเดลภาษาขนาดใหญ่

ข่าวก่อนหน้า

23-5-2566 เราเปิดตัวเวอร์ชัน 0.0.5 โดยนำข้อกำหนดของ llama-cpp-python ออก
16-5-2566 เราเปิดตัวเวอร์ชัน 0.0.4 เพื่อแก้ไขปัญหาบางอย่าง
21-4-2023 เราเปิดตัวเวอร์ชัน 0.0.3 โปรดดูรายละเอียดเพิ่มเติมในเอกสารประกอบของเรา
25-3-2566 เราเปิดตัวเวอร์ชัน 0.0.2 ซึ่งสนับสนุน IndexPrompt, MMPPrompt, IEPPrompt และ LLM อื่นๆ
13-3-2566 เราเปิดตัวเวอร์ชัน 0.0.1 รองรับการเรียนรู้ในบริบท ห่วงโซ่แห่งความคิดด้วย ChatGPT

พื้นที่เก็บข้อมูลนี้เป็นโครงการย่อยของ KnowLM

?ภาพรวม

EasyInstruct เป็นแพ็คเกจ Python ที่ได้รับการเสนอให้เป็นเฟรมเวิร์กการประมวลผลคำสั่งที่ใช้งานง่ายสำหรับโมเดลภาษาขนาดใหญ่ (LLM) เช่น GPT-4, LLaMA, ChatGLM ในการทดลองวิจัยของคุณ EasyInstruct ทำให้การสร้าง การเลือก และการแจ้งคำสั่งเป็นโมดูล ขณะเดียวกันก็พิจารณาการผสมผสานและการโต้ตอบของคำสั่งเหล่านั้นด้วย

เทคนิคการสร้างคำสั่งที่รองรับในปัจจุบันมีดังนี้:

วิธีการ	คำอธิบาย
การสอนด้วยตนเอง	วิธีการสุ่มตัวอย่างคำสั่งบางส่วนจากกลุ่มงานเริ่มต้นที่มีคำอธิบายประกอบโดยมนุษย์เป็นการสาธิต และแจ้งให้ LLM สร้างคำสั่งเพิ่มเติมและคู่อินพุต-เอาต์พุตที่สอดคล้องกัน
Evol-สอน	วิธีการที่ค่อยๆ อัปเกรดชุดคำสั่งเริ่มแรกให้เป็นคำสั่งที่ซับซ้อนมากขึ้นโดยแจ้ง LLM ด้วยพร้อมท์เฉพาะ
การแปลกลับ	วิธีการที่สร้างคำสั่งตามตัวอย่างการฝึกอบรมโดยการทำนายคำสั่งที่จะถูกตอบอย่างถูกต้องโดยส่วนหนึ่งของเอกสารของคลังข้อมูล
KG2 คำสั่ง	วิธีการที่สร้างคำสั่งตามตัวอย่างการฝึกอบรมโดยการทำนายคำสั่งที่จะถูกตอบอย่างถูกต้องโดยส่วนหนึ่งของเอกสารของคลังข้อมูล

เมตริกการเลือกคำสั่งที่รองรับในปัจจุบันมีดังนี้:

เมตริก	สัญกรณ์	คำอธิบาย
ความยาว	$เลน$	ความยาวที่จำกัดของคำสั่งและการตอบกลับทุกคู่
ความฉงนสนเท่ห์	$PPL$	ค่าบันทึกความน่าจะเป็นของการตอบสนองเป็นลบโดยเฉลี่ยแบบยกกำลัง
MTLD	$MTLD$	การวัดความหลากหลายของคำศัพท์ที่เป็นข้อความ ความยาวเฉลี่ยของคำที่เรียงตามลำดับในข้อความที่รักษาคะแนน TTR ตามเกณฑ์ขั้นต่ำ
สีแดง	$ROUGE$	Recall-Oriented Understudy สำหรับการประเมิน Gisting ซึ่งเป็นชุดเมตริกที่ใช้สำหรับประเมินความคล้ายคลึงกันระหว่างประโยค
คะแนนจีพีที	$GPT$	คะแนนว่าผลลัพธ์เป็นตัวอย่างที่ดีว่าผู้ช่วย AI ควรตอบสนองต่อคำสั่งของผู้ใช้อย่างไร ซึ่งจัดทำโดย ChatGPT
ซีอาร์เอส	$CIRS$	คะแนนที่ใช้แผนผังไวยากรณ์นามธรรมเพื่อเข้ารหัสคุณลักษณะเชิงโครงสร้างและตรรกะ เพื่อวัดความสัมพันธ์ระหว่างโค้ดและความสามารถในการให้เหตุผล

ผู้ให้บริการ API และผลิตภัณฑ์ LLM ที่เกี่ยวข้องซึ่งมีให้บริการในปัจจุบัน:

แบบอย่าง	คำอธิบาย	เวอร์ชันเริ่มต้น
OpenAI
GPT-3.5	ชุดรูปแบบที่ปรับปรุงบน GPT-3 และสามารถเข้าใจรวมถึงสร้างภาษาหรือโค้ดที่เป็นธรรมชาติ	`gpt-3.5-turbo`
GPT-4	ชุดรูปแบบที่ปรับปรุงบน GPT-3.5 และสามารถเข้าใจรวมถึงสร้างภาษาหรือโค้ดที่เป็นธรรมชาติ	`gpt-4`
มานุษยวิทยา
คลอดด์	ผู้ช่วย AI รุ่นต่อไปที่อิงจากการวิจัยของ Anthropic ในการฝึกอบรมระบบ AI ที่เป็นประโยชน์ ซื่อสัตย์ และไม่เป็นอันตราย	`claude-2.0`
Claude-ทันที	ตัวเลือกที่เบากว่า ราคาถูกกว่า และเร็วกว่า Claude มาก	`claude-instant-1.2`
เชื่อมโยงกัน
สั่งการ	โมเดลการสร้างข้อความระดับเรือธงของ Cohere ที่ได้รับการฝึกอบรมให้ปฏิบัติตามคำสั่งของผู้ใช้ และมีประโยชน์ทันทีในแอปพลิเคชันทางธุรกิจเชิงปฏิบัติ	`command`
คำสั่ง-Light	โมเดล Command เวอร์ชันเบาที่เร็วกว่าแต่อาจสร้างข้อความที่สร้างขึ้นคุณภาพต่ำ	`command-light`

?การติดตั้ง

การติดตั้งจากสาขา git repo:

 pip install git+https://github.com/zjunlp/EasyInstruct@main

การติดตั้งเพื่อการพัฒนาท้องถิ่น:

 git clone https://github.com/zjunlp/EasyInstruct
cd EasyInstruct
pip install -e .

การติดตั้งโดยใช้ PyPI (ไม่ใช่เวอร์ชันล่าสุด):

 pip install easyinstruct -i https://pypi.org/simple

⏩เริ่มต้นอย่างรวดเร็ว

เรามีสองวิธีสำหรับผู้ใช้ในการเริ่มต้นใช้งาน EasyInstruct อย่างรวดเร็ว คุณสามารถใช้เชลล์สคริปต์หรือแอป Gradio ได้ตามความต้องการเฉพาะของคุณ

เชลล์สคริปต์

ขั้นตอนที่ 1: เตรียมไฟล์การกำหนดค่า

ผู้ใช้สามารถกำหนดค่าพารามิเตอร์ของ EasyInstruct ในไฟล์สไตล์ YAML ได้อย่างง่ายดาย หรือใช้พารามิเตอร์เริ่มต้นในไฟล์การกำหนดค่าที่เราจัดเตรียมไว้ให้ได้อย่างรวดเร็ว ต่อไปนี้เป็นตัวอย่างไฟล์การกำหนดค่าสำหรับ Self-Instruct:

 generator :
  SelfInstructGenerator :
    target_dir : data/generations/
    data_format : alpaca
    seed_tasks_path : data/seed_tasks.jsonl
    generated_instructions_path : generated_instructions.jsonl
    generated_instances_path : generated_instances.jsonl
    num_instructions_to_generate : 100
    engine : gpt-3.5-turbo
    num_prompt_instructions : 8

สามารถดูไฟล์การกำหนดค่าตัวอย่างเพิ่มเติมได้ที่ configs

ขั้นตอนที่ 2: เรียกใช้เชลล์สคริปต์

ผู้ใช้ควรระบุไฟล์การกำหนดค่าและระบุคีย์ OpenAI API ของตนเองก่อน จากนั้น รันเชลล์สคริปต์ต่อไปนี้เพื่อเรียกใช้การสร้างคำสั่งหรือกระบวนการเลือก

config_file= " "
openai_api_key= " "

python demo/run.py 
    --config  $config_file 
    --openai_api_key $openai_api_key

แอพกราดิโอ

เรามีแอป Gradio สำหรับผู้ใช้เพื่อเริ่มต้นใช้งาน EasyInstruct อย่างรวดเร็ว คุณสามารถเรียกใช้คำสั่งต่อไปนี้เพื่อเปิดแอป Gradio ภายในเครื่องที่พอร์ต 8080 (ถ้ามี)

python demo/app.py

นอกจากนี้เรายังโฮสต์แอป gradio ที่ทำงานอยู่ใน HuggingFace Spaces คุณสามารถลองได้ที่นี่

?ใช้ EasyInstruct

โปรดดูเอกสารของเราสำหรับรายละเอียดเพิ่มเติม

เครื่องกำเนิดไฟฟ้า

โมดูล Generators เพิ่มความคล่องตัวให้กับกระบวนการสร้างข้อมูลคำสั่ง ทำให้สามารถสร้างข้อมูลคำสั่งตามข้อมูลเริ่มต้นได้ คุณสามารถเลือกเครื่องกำเนิดไฟฟ้าที่เหมาะสมได้ตามความต้องการเฉพาะของคุณ

เครื่องกำเนิดฐาน

BaseGenerator เป็นคลาสพื้นฐานสำหรับตัวสร้างทั้งหมด

คุณยังสามารถสืบทอดคลาสพื้นฐานนี้ได้อย่างง่ายดายเพื่อปรับแต่งคลาสตัวสร้างของคุณเอง เพียงแทนที่ __init__ และ generate วิธีการ

เครื่องสร้างคำสั่งด้วยตนเอง

SelfInstructGenerator เป็นคลาสสำหรับวิธีการสร้างคำสั่ง Self-Instruct ดูการสอนด้วยตนเอง: การจัดรูปแบบภาษาให้สอดคล้องกับคำแนะนำที่สร้างขึ้นเองสำหรับรายละเอียดเพิ่มเติม

ตัวอย่าง

 from easyinstruct import SelfInstructGenerator
from easyinstruct . utils . api import set_openai_key

# Step1: Set your own API-KEY
set_openai_key ( "YOUR-KEY" )

# Step2: Declare a generator class
generator = SelfInstructGenerator ( num_instructions_to_generate = 10 )

# Step3: Generate self-instruct data
generator . generate ()

เครื่องกำเนิดการแปลกลับ

BacktranslationGenerator เป็นคลาสสำหรับวิธีสร้างคำสั่งของ Instruction Backtranslation ดูการจัดตำแหน่งตนเองด้วยคำแนะนำ Backtranslation สำหรับรายละเอียดเพิ่มเติม

ตัวอย่าง

 from easyinstruct import BacktranslationGenerator
from easyinstruct . utils . api import set_openai_key

# Step1: Set your own API-KEY
set_openai_key ( "YOUR-KEY" )

# Step2: Declare a generator class
generator = BacktranslationGenerator ( num_instructions_to_generate = 10 )

# Step3: Generate backtranslation data
generator . generate ()

EvolInstructGenerator

EvolInstructGenerator เป็นคลาสสำหรับวิธีสร้างคำสั่งของ EvolInstruct ดู WizardLM: การเพิ่มศักยภาพให้กับโมเดลภาษาขนาดใหญ่เพื่อปฏิบัติตามคำแนะนำที่ซับซ้อน สำหรับรายละเอียดเพิ่มเติม

ตัวอย่าง

 from easyinstruct import EvolInstructGenerator
from easyinstruct . utils . api import set_openai_key

# Step1: Set your own API-KEY
set_openai_key ( "YOUR-KEY" )

# Step2: Declare a generator class
generator = EvolInstructGenerator ( num_instructions_to_generate = 10 )

# Step3: Generate evolution data
generator . generate ()

KG2InstructGenerator

KG2InstructGenerator เป็นคลาสสำหรับวิธีสร้างคำสั่งของ KG2Instruct ดู InstructIE: ชุดข้อมูลการแยกข้อมูลตามคำสั่งภาษาจีนสำหรับรายละเอียดเพิ่มเติม

ตัวเลือก

โมดูล Selectors สร้างมาตรฐานให้กับกระบวนการเลือกคำสั่ง ทำให้สามารถแยกชุดข้อมูลคำสั่งคุณภาพสูงออกจากข้อมูลคำสั่งดิบที่ยังไม่ได้ประมวลผล ข้อมูลดิบสามารถมาจากชุดข้อมูลคำสั่งที่เปิดเผยต่อสาธารณะหรือสร้างโดยเฟรมเวิร์กเอง คุณสามารถเลือกตัวเลือกที่เหมาะสมได้ตามความต้องการเฉพาะของคุณ

ตัวเลือกฐาน

BaseSelector เป็นคลาสพื้นฐานสำหรับตัวเลือกทั้งหมด

คุณยังสามารถสืบทอดคลาสพื้นฐานนี้ได้อย่างง่ายดายเพื่อปรับแต่งคลาสตัวเลือกของคุณเอง เพียงแทนที่ __init__ และ __process__ วิธีการ

ขจัดข้อมูลซ้ำซ้อน

Deduplicator เป็นคลาสสำหรับกำจัดตัวอย่างคำสั่งที่ซ้ำกันซึ่งอาจส่งผลเสียต่อทั้งความเสถียรก่อนการฝึกอบรมและประสิทธิภาพของ LLM Deduplicator ยังช่วยให้ใช้งานและเพิ่มประสิทธิภาพพื้นที่จัดเก็บข้อมูลได้อย่างมีประสิทธิภาพอีกด้วย

ตัวเลือกความยาว

LengthSelector เป็นคลาสสำหรับเลือกตัวอย่างคำสั่งตามความยาวของคำสั่ง คำสั่งที่ยาวหรือสั้นเกินไปอาจส่งผลต่อคุณภาพของข้อมูลและไม่เอื้อต่อการปรับคำสั่ง

RougeSelector

RougeSelector เป็นคลาสสำหรับการเลือกตัวอย่างคำสั่งตามเมตริก ROUGE ซึ่งมักใช้สำหรับการประเมินคุณภาพของการสร้างข้อความอัตโนมัติ

GPTScoreSelector

GPTScoreSelector เป็นคลาสสำหรับเลือกตัวอย่างคำสั่งตามคะแนน GPT ซึ่งสะท้อนให้เห็นว่าผลลัพธ์เป็นตัวอย่างที่ดีว่า AI Assistant ควรตอบสนองต่อคำสั่งของผู้ใช้ที่ ChatGPT มอบให้หรือไม่

PPLตัวเลือก

PPLSelector เป็นคลาสสำหรับการเลือกตัวอย่างคำสั่งตามความฉงนสนเท่ห์ ซึ่งเป็นบันทึกความน่าจะเป็นของการตอบสนองเชิงลบโดยเฉลี่ยแบบยกกำลัง

MTLDตัวเลือก

MTLDSelector เป็นคลาสสำหรับการเลือกตัวอย่างคำสั่งตาม MTLD ซึ่งย่อมาจาก Measure of Textual Lexical Diversity

ตัวเลือกรหัส

CodeSelector เป็นคลาสสำหรับการเลือกตัวอย่างคำสั่งโค้ดโดยอิงตามคะแนนการให้เหตุผลที่กระทบต่อความซับซ้อน (CIRS) ซึ่งรวมคุณลักษณะทางโครงสร้างและตรรกะเข้าด้วยกัน เพื่อวัดความสัมพันธ์ระหว่างโค้ดและความสามารถในการให้เหตุผล ดูเมื่อใดที่โปรแกรมแห่งความคิดทำงานเพื่อการให้เหตุผล สำหรับรายละเอียดเพิ่มเติม

ตัวอย่าง

 from easyinstruct import CodeSelector

# Step1: Specify your source file of code instructions
src_file = "data/code_example.json"

# Step2: Declare a code selecter class
selector = CodeSelector (
    source_file_path = src_file , 
    target_dir = "data/selections/" ,
    manually_partion_data = True ,
    min_boundary = 0.125 ,
    max_boundary = 0.5 ,
    automatically_partion_data = True ,
    k_means_cluster_number = 2 ,
    )

# Step3: Process the code instructions
selector . process ()

MultiSelector

MultiSelector เป็นคลาสสำหรับการรวมตัวเลือกที่เหมาะสมหลายตัวเข้าด้วยกันตามความต้องการเฉพาะของคุณ

แจ้ง

โมดูล Prompts สร้างมาตรฐานให้กับขั้นตอนการแจ้งคำสั่ง โดยที่คำขอของผู้ใช้จะถูกสร้างขึ้นเป็นพร้อมท์คำสั่ง และส่งไปยัง LLM เฉพาะเพื่อรับการตอบกลับ คุณสามารถเลือกวิธีการแจ้งที่เหมาะสมได้ตามความต้องการเฉพาะของคุณ

โปรดตรวจสอบลิงก์เพื่อดูรายละเอียดเพิ่มเติม

เครื่องยนต์

โมดูล Engines สร้างมาตรฐานให้กับกระบวนการดำเนินการคำสั่ง ทำให้สามารถดำเนินการพร้อมท์คำสั่งบน LLM ที่ปรับใช้ในเครื่องเฉพาะได้ คุณสามารถเลือกเครื่องยนต์ที่เหมาะสมได้ตามความต้องการเฉพาะของคุณ

โปรดตรวจสอบลิงก์เพื่อดูรายละเอียดเพิ่มเติม

การอ้างอิง

โปรดอ้างอิงพื้นที่เก็บข้อมูลของเราหากคุณใช้ EasyInstruct ในงานของคุณ

 @article { ou2024easyinstruct ,
  title = { EasyInstruct: An Easy-to-use Instruction Processing Framework for Large Language Models } ,
  author = { Ou, Yixin and Zhang, Ningyu and Gui, Honghao and Xu, Ziwen and Qiao, Shuofei and Bi, Zhen and Chen, Huajun } ,
  journal = { arXiv preprint arXiv:2402.03049 } ,
  year = { 2024 }
}

@misc { knowlm ,
  author = { Ningyu Zhang and Jintian Zhang and Xiaohan Wang and Honghao Gui and Kangwei Liu and Yinuo Jiang and Xiang Chen and Shengyu Mao and Shuofei Qiao and Yuqi Zhu and Zhen Bi and Jing Chen and Xiaozhuan Liang and Yixin Ou and Runnan Fang and Zekun Xi and Xin Xu and Lei Li and Peng Wang and Mengru Wang and Yunzhi Yao and Bozhong Tian and Yin Fang and Guozhou Zheng and Huajun Chen } ,
  title = { KnowLM: An Open-sourced Knowledgeable Large Langugae Model Framework } ,
  year = { 2023 } ,
 url = { http://knowlm.zjukg.cn/ } ,
}

@article { bi2023program ,
  title = { When do program-of-thoughts work for reasoning? } ,
  author = { Bi, Zhen and Zhang, Ningyu and Jiang, Yinuo and Deng, Shumin and Zheng, Guozhou and Chen, Huajun } ,
  journal = { arXiv preprint arXiv:2308.15452 } ,
  year = { 2023 }
}