تنزيل EasyInstruct - تنزيل كود مصدر EasyInstruct

EasyInstruct

كود الذكاء الاصطناعي

1.0.0

تنزيل

إطار معالجة تعليمات سهل الاستخدام لنماذج اللغات الكبيرة.

المشروع • الورق • العرض التوضيحي • نظرة عامة • التثبيت • البدء السريع • كيفية الاستخدام • المستندات • الفيديو • الاستشهاد • المساهمون

جدول المحتويات

ما هو الجديد
ملخص
تثبيت
بداية سريعة
- شل النصي
- تطبيق جراديو
استخدم إيزي إنستروكت
- مولدات
- محددات
- يطالب
- محركات
الاقتباس
المساهمين

؟أخبار

04-06-2024، تم قبول EasyInstruct من قبل ACL 2024 System Demonstration Track. ؟؟
06-02-2024 أصدرنا ورقة بحثية جديدة: "EasyInstruct: إطار عمل معالجة تعليمات سهل الاستخدام لنماذج اللغات الكبيرة" مع عرض توضيحي لـ HF EasyInstruct.
06-02-2024 قمنا بإصدار الأداة الأولية EasyDetect للكشف عن الهلوسة، مع عرض توضيحي .
05-02-2024 أصدرنا الإصدار 0.1.2، الذي يدعم الميزات الجديدة ويحسن واجهة الوظائف.
2023-12-09 ورقة بحثية "متى يعمل برنامج الأفكار من أجل الاستدلال؟" (بدعم من EasyInstruct)، تم قبوله بواسطة AAAI 2024!
28-10-2023 قمنا بإصدار الإصدار 0.1.1، الذي يدعم الميزات الجديدة لإنشاء التعليمات واختيار التعليمات.
09-08-2023 قمنا بإصدار الإصدار 0.0.6، الذي يدعم مكالمات Cohere API.
12-07-2023 قمنا بإصدار EasyEdit، وهو إطار عمل سهل الاستخدام لتحرير نماذج اللغات الكبيرة.

الأخبار السابقة

23-5-2023 أطلقنا الإصدار 0.0.5، مع إزالة متطلبات llama-cpp-python.
16-5-2023 قمنا بإصدار الإصدار 0.0.4 لإصلاح بعض المشاكل.
21-4-2023 قمنا بإصدار الإصدار 0.0.3، راجع وثائقنا لمزيد من التفاصيل.
25-3-2023 قمنا بإصدار الإصدار 0.0.2، الذي يدعم IndexPrompt وMMPrompt وIEPrompt والمزيد من LLMs
13-3-2023 أطلقنا الإصدار 0.0.1، الذي يدعم التعلم في السياق وتسلسل الأفكار مع ChatGPT.

هذا المستودع هو مشروع فرعي لـ KnowLM.

؟ملخص

EasyInstruct عبارة عن حزمة Python تم اقتراحها كإطار عمل سهل الاستخدام لمعالجة التعليمات لنماذج اللغات الكبيرة (LLMs) مثل GPT-4 وLLaMA وChatGLM في تجاربك البحثية. يقوم EasyInstruct بإنشاء التعليمات واختيارها وطرحها، مع الأخذ في الاعتبار أيضًا دمجها وتفاعلها.

تقنيات توليد التعليمات المدعومة الحالية هي كما يلي:

طُرق	وصف
تعليمات ذاتية	الطريقة التي تأخذ عينات عشوائية من بعض التعليمات من مجموعة المهام الأولية المشروحة بواسطة الإنسان كعروض توضيحية وتطالب ماجستير إدارة الأعمال بإنشاء المزيد من التعليمات وأزواج المدخلات والمخرجات المقابلة.
تطور التعليمات	الطريقة التي تقوم بترقية مجموعة أولية من التعليمات بشكل تدريجي إلى تعليمات أكثر تعقيدًا عن طريق مطالبة LLM بمطالبات محددة.
الترجمة العكسية	الطريقة التي تنشئ تعليمات بعد مثيل التدريب من خلال التنبؤ بالتعليمات التي سيتم الرد عليها بشكل صحيح من خلال جزء من مستند المجموعة.
KG2Instruct	الطريقة التي تنشئ تعليمات بعد مثيل التدريب من خلال التنبؤ بالتعليمات التي سيتم الرد عليها بشكل صحيح من خلال جزء من مستند المجموعة.

مقاييس اختيار التعليمات المدعومة الحالية هي كما يلي:

المقاييس	التدوين	وصف
طول	$لين$	الطول المحدد لكل زوج من التعليمات والاستجابة.
الحيرة	$PPL$	المتوسط الأسي للسجل السلبي لاحتمالية الاستجابة.
MTLD	$MTLD$	مقياس التنوع المعجمي النصي، وهو متوسط طول الكلمات المتسلسلة في النص الذي يحافظ على الحد الأدنى من درجة TTR.
روج	$روج$	دراسة موجهة نحو الاستدعاء لتقييم الإحصاء، وهي مجموعة من المقاييس المستخدمة لتقييم أوجه التشابه بين الجمل.
نقاط GPT	$GPT$	درجة ما إذا كان الإخراج مثالًا جيدًا لكيفية استجابة AI Assistant لتعليمات المستخدم، المقدمة من ChatGPT.
CIRS	$CIRS$	يتم تسجيل النتيجة باستخدام شجرة بناء الجملة المجردة لتشفير السمات الهيكلية والمنطقية، لقياس الارتباط بين الكود وقدرات التفكير.

مقدمو خدمات واجهة برمجة التطبيقات (API) ومنتجات LLM المقابلة لهم المتوفرة حاليًا:

نموذج	وصف	الإصدار الافتراضي
OpenAI
جي بي تي-3.5	مجموعة من النماذج التي تعمل على تحسين GPT-3 ويمكنها فهم اللغة الطبيعية أو التعليمات البرمجية وإنشاءها.	`gpt-3.5-turbo`
جي بي تي-4	مجموعة من النماذج التي تعمل على تحسين GPT-3.5 ويمكنها فهم اللغة الطبيعية أو التعليمات البرمجية وإنشاءها.	`gpt-4`
أنثروبي
كلود	مساعد الذكاء الاصطناعي من الجيل التالي استنادًا إلى أبحاث Anthropic في تدريب أنظمة الذكاء الاصطناعي المفيدة والصادقة وغير الضارة.	`claude-2.0`
كلود فوري	خيار أخف وأقل تكلفة وأسرع بكثير من كلود.	`claude-instant-1.2`
التحم
يأمر	تم تدريب نموذج إنشاء النص الرائد من Cohere على اتباع أوامر المستخدم ويكون مفيدًا على الفور في تطبيقات الأعمال العملية.	`command`
ضوء الأوامر	إصدار خفيف من نماذج الأوامر وهو أسرع ولكنه قد ينتج نصًا تم إنشاؤه بجودة أقل.	`command-light`

؟تثبيت

التثبيت من فرع git repo:

 pip install git+https://github.com/zjunlp/EasyInstruct@main

التثبيت للتنمية المحلية:

 git clone https://github.com/zjunlp/EasyInstruct
cd EasyInstruct
pip install -e .

التثبيت باستخدام PyPI (وليس الإصدار الأحدث):

 pip install easyinstruct -i https://pypi.org/simple

⏩بداية سريعة

نحن نقدم طريقتين للمستخدمين لبدء استخدام EasyInstruct بسرعة. يمكنك إما استخدام برنامج Shell النصي أو تطبيق Gradio بناءً على احتياجاتك الخاصة.

شل النصي

الخطوة 1: إعداد ملف التكوين

يمكن للمستخدمين بسهولة تكوين معلمات EasyInstruct في ملف بنمط YAML أو استخدام المعلمات الافتراضية بسرعة في ملفات التكوين التي نقدمها. فيما يلي مثال لملف التكوين الخاص بـ Self-Instruct:

 generator :
  SelfInstructGenerator :
    target_dir : data/generations/
    data_format : alpaca
    seed_tasks_path : data/seed_tasks.jsonl
    generated_instructions_path : generated_instructions.jsonl
    generated_instances_path : generated_instances.jsonl
    num_instructions_to_generate : 100
    engine : gpt-3.5-turbo
    num_prompt_instructions : 8

يمكن العثور على المزيد من أمثلة ملفات التكوين في configs.

الخطوة 2: قم بتشغيل برنامج Shell النصي

يجب على المستخدمين أولاً تحديد ملف التكوين وتقديم مفتاح OpenAI API الخاص بهم. ثم قم بتشغيل البرنامج النصي التالي لبدء عملية إنشاء التعليمات أو الاختيار.

config_file= " "
openai_api_key= " "

python demo/run.py 
    --config  $config_file 
    --openai_api_key $openai_api_key

تطبيق جراديو

نحن نقدم تطبيق Gradio للمستخدمين لبدء استخدام EasyInstruct بسرعة. يمكنك تشغيل الأمر التالي لتشغيل تطبيق Gradio محليًا على المنفذ 8080 (إن وجد).

python demo/app.py

نستضيف أيضًا تطبيقًا قيد التشغيل في HuggingFace Spaces. يمكنك تجربتها هنا.

?استخدم EasyInstruct

يرجى الرجوع إلى وثائقنا لمزيد من التفاصيل.

مولدات

تعمل وحدة Generators على تبسيط عملية إنشاء بيانات التعليمات، مما يسمح بإنشاء بيانات التعليمات بناءً على البيانات الأولية. يمكنك اختيار المولد المناسب بناءً على احتياجاتك الخاصة.

BaseGenerator

BaseGenerator هي الفئة الأساسية لجميع المولدات.

يمكنك أيضًا وراثة هذه الفئة الأساسية بسهولة لتخصيص فئة المولد الخاصة بك. ما عليك سوى تجاوز طريقة __init__ generate .

SelfInstructGenerator

SelfInstructGenerator هو فئة طريقة إنشاء التعليمات الخاصة بـ Self-Instruct. راجع التعليمات الذاتية: محاذاة نموذج اللغة مع التعليمات المولدة ذاتيًا لمزيد من التفاصيل.

مثال

 from easyinstruct import SelfInstructGenerator
from easyinstruct . utils . api import set_openai_key

# Step1: Set your own API-KEY
set_openai_key ( "YOUR-KEY" )

# Step2: Declare a generator class
generator = SelfInstructGenerator ( num_instructions_to_generate = 10 )

# Step3: Generate self-instruct data
generator . generate ()

BacktranslationGenerator

BacktranslationGenerator هو فئة طريقة إنشاء التعليمات الخاصة بالترجمة العكسية للتعليمات. راجع المحاذاة الذاتية مع الترجمة العكسية للتعليمات لمزيد من التفاصيل.

مثال

 from easyinstruct import BacktranslationGenerator
from easyinstruct . utils . api import set_openai_key

# Step1: Set your own API-KEY
set_openai_key ( "YOUR-KEY" )

# Step2: Declare a generator class
generator = BacktranslationGenerator ( num_instructions_to_generate = 10 )

# Step3: Generate backtranslation data
generator . generate ()

EvolInstructGenerator

EvolInstructGenerator هو فئة طريقة إنشاء التعليمات الخاصة بـ EvolInstruct. راجع WizardLM: تمكين نماذج اللغات الكبيرة من اتباع التعليمات المعقدة لمزيد من التفاصيل.

مثال

 from easyinstruct import EvolInstructGenerator
from easyinstruct . utils . api import set_openai_key

# Step1: Set your own API-KEY
set_openai_key ( "YOUR-KEY" )

# Step2: Declare a generator class
generator = EvolInstructGenerator ( num_instructions_to_generate = 10 )

# Step3: Generate evolution data
generator . generate ()

KG2InstructGenerator

KG2InstructGenerator هي فئة طريقة إنشاء التعليمات في KG2Instruct. راجع InstructIE: مجموعة بيانات استخراج المعلومات الصينية القائمة على التعليمات لمزيد من التفاصيل.

محددات

تعمل وحدة Selectors على توحيد عملية اختيار التعليمات، مما يتيح استخراج مجموعات بيانات التعليمات عالية الجودة من بيانات التعليمات الأولية غير المعالجة. يمكن الحصول على البيانات الأولية من مجموعات بيانات التعليمات المتاحة للعامة أو التي يتم إنشاؤها بواسطة الإطار نفسه. يمكنك اختيار المحدد المناسب بناءً على احتياجاتك الخاصة.

محدد القاعدة

BaseSelector هي الفئة الأساسية لجميع المحددات.

يمكنك أيضًا وراثة هذه الفئة الأساسية بسهولة لتخصيص فئة المحدد الخاصة بك. ما عليك سوى تجاوز أسلوبي __init__ و__ __process__ .

أداة إلغاء البيانات المكررة

Deduplicator هو الفصل الخاص بإزالة عينات التعليمات المكررة التي يمكن أن تؤثر سلبًا على كل من استقرار ما قبل التدريب وأداء LLMs. يمكن Deduplicator أيضًا أن تتيح الاستخدام الفعال لمساحة التخزين وتحسينها.

محدد الطول

LengthSelector هي فئة اختيار عينات التعليمات بناءً على طول التعليمات. يمكن أن تؤثر التعليمات الطويلة جدًا أو القصيرة جدًا على جودة البيانات ولا تساعد على ضبط التعليمات.

RougeSelector

RougeSelector هو فئة اختيار عينات التعليمات بناءً على مقياس ROUGE الذي غالبًا ما يستخدم لتقييم جودة الإنشاء الآلي للنص.

GTScoreSelector

GPTScoreSelector هي فئة اختيار عينات التعليمات بناءً على درجة GPT، والتي تعكس ما إذا كانت المخرجات مثالًا جيدًا لكيفية استجابة AI Assistant لتعليمات المستخدم، المقدمة من ChatGPT.

PPLSelector

PPLSelector هي فئة اختيار عينات التعليمات بناءً على درجة الحيرة، وهو متوسط احتمالية السجل السلبي للاستجابة.

MTLDSelector

MTLDSelector هو الفصل الدراسي لاختيار عينات التعليمات بناءً على MTLD، وهو اختصار لمقياس التنوع المعجمي النصي.

محدد الكود

CodeSelector عبارة عن فئة لاختيار عينات تعليمات التعليمات البرمجية استنادًا إلى درجة الاستدلال المتأثر بالتعقيد (CIRS)، والتي تجمع بين السمات الهيكلية والمنطقية، لقياس الارتباط بين التعليمات البرمجية وقدرات الاستدلال. انظر متى ينجح برنامج الأفكار في الاستدلال؟ لمزيد من التفاصيل.

مثال

 from easyinstruct import CodeSelector

# Step1: Specify your source file of code instructions
src_file = "data/code_example.json"

# Step2: Declare a code selecter class
selector = CodeSelector (
    source_file_path = src_file , 
    target_dir = "data/selections/" ,
    manually_partion_data = True ,
    min_boundary = 0.125 ,
    max_boundary = 0.5 ,
    automatically_partion_data = True ,
    k_means_cluster_number = 2 ,
    )

# Step3: Process the code instructions
selector . process ()

محدد متعدد

MultiSelector هو الفصل الذي يجمع بين العديد من المحددات المناسبة بناءً على احتياجاتك الخاصة.

يطالب

تعمل وحدة Prompts على توحيد خطوة المطالبة بالتعليمات، حيث يتم إنشاء طلبات المستخدم كمطالبات تعليمات وإرسالها إلى ماجستير إدارة أعمال محدد للحصول على استجابات. يمكنك اختيار طريقة المطالبة المناسبة بناءً على احتياجاتك الخاصة.

يرجى مراجعة الرابط لمزيد من التفاصيل.

محركات

تعمل وحدة Engines على توحيد عملية تنفيذ التعليمات، مما يتيح تنفيذ مطالبات التعليمات على دورات LLM محددة منتشرة محليًا. يمكنك اختيار المحرك المناسب بناءً على احتياجاتك الخاصة.

يرجى مراجعة الرابط لمزيد من التفاصيل.

الاقتباس

يرجى الإشارة إلى مستودعنا إذا كنت تستخدم EasyInstruct في عملك.

 @article { ou2024easyinstruct ,
  title = { EasyInstruct: An Easy-to-use Instruction Processing Framework for Large Language Models } ,
  author = { Ou, Yixin and Zhang, Ningyu and Gui, Honghao and Xu, Ziwen and Qiao, Shuofei and Bi, Zhen and Chen, Huajun } ,
  journal = { arXiv preprint arXiv:2402.03049 } ,
  year = { 2024 }
}

@misc { knowlm ,
  author = { Ningyu Zhang and Jintian Zhang and Xiaohan Wang and Honghao Gui and Kangwei Liu and Yinuo Jiang and Xiang Chen and Shengyu Mao and Shuofei Qiao and Yuqi Zhu and Zhen Bi and Jing Chen and Xiaozhuan Liang and Yixin Ou and Runnan Fang and Zekun Xi and Xin Xu and Lei Li and Peng Wang and Mengru Wang and Yunzhi Yao and Bozhong Tian and Yin Fang and Guozhou Zheng and Huajun Chen } ,
  title = { KnowLM: An Open-sourced Knowledgeable Large Langugae Model Framework } ,
  year = { 2023 } ,
 url = { http://knowlm.zjukg.cn/ } ,
}

@article { bi2023program ,
  title = { When do program-of-thoughts work for reasoning? } ,
  author = { Bi, Zhen and Zhang, Ningyu and Jiang, Yinuo and Deng, Shumin and Zheng, Guozhou and Chen, Huajun } ,
  journal = { arXiv preprint arXiv:2308.15452 } ,
  year = { 2023 }
}