Unduhan EasyInstruct - Unduhan kode Sumber EasyInstruct

EasyInstruct

Kode Sumber AI

1.0.0

Unduh

Kerangka Pemrosesan Instruksi yang Mudah Digunakan untuk Model Bahasa Besar.

Proyek • Makalah • Demo • Ikhtisar • Instalasi • Panduan Memulai • Cara Menggunakan • Dokumen • Video • Kutipan • Kontributor

Daftar isi

Apa yang Baru
Ringkasan
Instalasi
Mulai cepat
- Skrip Kerang
- Aplikasi Gradio
Gunakan EasyInstruct
- Generator
- Penyeleksi
- Anjuran
- Mesin
Kutipan
Kontributor

?Berita

04-06-2024, EasyInstruct diterima oleh Jalur Demonstrasi Sistem ACL 2024. ??
06-02-2024 Kami merilis makalah baru: "EasyInstruct: Kerangka Pemrosesan Instruksi yang Mudah Digunakan untuk Model Bahasa Besar" dengan demo HF EasyInstruct.
06-02-2024 Kami merilis alat awal EasyDetect untuk deteksi halusinasi, dengan demo .
05-02-2024 Kami merilis versi 0.1.2, mendukung fitur-fitur baru dan mengoptimalkan antarmuka fungsi.
09-12-2023 Makalah "Kapan Program Pemikiran Berhasil untuk Penalaran?" (didukung oleh EasyInstruct), diterima oleh AAAI 2024!
28-10-2023 Kami merilis versi 0.1.1, mendukung fitur baru pembuatan instruksi dan pemilihan instruksi.
09-08-2023 Kami merilis versi 0.0.6, mendukung panggilan Cohere API.
12-07-2023 Kami merilis EasyEdit, kerangka kerja yang mudah digunakan untuk mengedit Model Bahasa Besar.

Berita sebelumnya

23-5-2023 Kami merilis versi 0.0.5, menghapus persyaratan llama-cpp-python.
16-5-2023 Kami merilis versi 0.0.4, memperbaiki beberapa masalah.
21-4-2023 Kami merilis versi 0.0.3, lihat dokumentasi kami untuk detail selengkapnya.
25-3-2023 Kami merilis versi 0.0.2, mendukung IndexPrompt, MMPrompt, IEPrompt, dan LLM lainnya
13-3-2023 Kami merilis versi 0.0.1, mendukung pembelajaran dalam konteks, rantai pemikiran dengan ChatGPT.

Repositori ini adalah subproyek KnowLM.

?Ringkasan

EasyInstruct adalah paket Python yang diusulkan sebagai kerangka pemrosesan instruksi yang mudah digunakan untuk Model Bahasa Besar (LLM) seperti GPT-4, LLaMA, ChatGLM dalam eksperimen penelitian Anda. EasyInstruct memodulasi pembuatan instruksi, pemilihan, dan prompt, sekaligus mempertimbangkan kombinasi dan interaksinya.

Teknik pembuatan instruksi yang didukung saat ini adalah sebagai berikut:

Metode	Keterangan
Instruksikan Sendiri	Metode yang secara acak mengambil sampel beberapa instruksi dari kumpulan tugas awal yang dianotasi manusia sebagai demonstrasi dan mendorong LLM untuk menghasilkan lebih banyak instruksi dan pasangan input-output yang sesuai.
Evol-Instruksikan	Metode yang secara bertahap meningkatkan serangkaian instruksi awal menjadi instruksi yang lebih kompleks dengan meminta LLM dengan perintah tertentu.
Terjemahan kembali	Metode yang membuat instruksi mengikuti contoh pelatihan dengan memprediksi instruksi yang akan dijawab dengan benar oleh sebagian dokumen korpus.
KG2Instruksikan	Metode yang membuat instruksi mengikuti contoh pelatihan dengan memprediksi instruksi yang akan dijawab dengan benar oleh sebagian dokumen korpus.

Metrik pemilihan instruksi yang didukung saat ini adalah sebagai berikut:

Metrik	Notasi	Keterangan
Panjang	$len$	Panjang yang dibatasi dari setiap pasangan instruksi dan respons.
Kebingungan	$PPL$	Kemungkinan respons log negatif rata-rata yang dieksponen.
MTLD	$MTLD$	Ukuran keragaman leksikal tekstual, yaitu rata-rata panjang kata berurutan dalam teks yang mempertahankan skor TTR ambang batas minimum.
PEMERAH	$MERAH$	Pembelajaran Berorientasi Ingatan untuk Evaluasi Gisting, seperangkat metrik yang digunakan untuk mengevaluasi kesamaan antar kalimat.
skor GPT	$GPT$	Skor apakah keluarannya merupakan contoh yang baik tentang bagaimana Asisten AI harus merespons instruksi pengguna, disediakan oleh ChatGPT.
CIRS	$CIRS$	Skor tersebut menggunakan pohon sintaksis abstrak untuk mengkodekan atribut struktural dan logis, untuk mengukur korelasi antara kode dan kemampuan penalaran.

Penyedia layanan API dan produk LLM terkait yang saat ini tersedia:

Model	Keterangan	Versi Bawaan
OpenAI
GPT-3.5	Seperangkat model yang menyempurnakan GPT-3 dan dapat memahami serta menghasilkan bahasa atau kode alami.	`gpt-3.5-turbo`
GPT-4	Seperangkat model yang menyempurnakan GPT-3.5 dan dapat memahami serta menghasilkan bahasa atau kode alami.	`gpt-4`
Antropis
Claude	Asisten AI generasi berikutnya berdasarkan penelitian Anthropic dalam melatih sistem AI yang bermanfaat, jujur, dan tidak berbahaya.	`claude-2.0`
Claude-Instan	Pilihan yang lebih ringan, lebih murah, dan lebih cepat daripada Claude.	`claude-instant-1.2`
Berpadu
Memerintah	Model pembuatan teks andalan Cohere yang dilatih untuk mengikuti perintah pengguna dan langsung berguna dalam aplikasi bisnis praktis.	`command`
Lampu Perintah	Versi ringan model Command yang lebih cepat namun dapat menghasilkan teks dengan kualitas lebih rendah.	`command-light`

?Instalasi

Instalasi dari cabang git repo:

 pip install git+https://github.com/zjunlp/EasyInstruct@main

Instalasi untuk pengembangan lokal:

 git clone https://github.com/zjunlp/EasyInstruct
cd EasyInstruct
pip install -e .

Instalasi menggunakan PyPI (bukan versi terbaru):

 pip install easyinstruct -i https://pypi.org/simple

⏩Mulai cepat

Kami menyediakan dua cara bagi pengguna untuk memulai EasyInstruct dengan cepat. Anda dapat menggunakan skrip shell atau aplikasi Gradio berdasarkan kebutuhan spesifik Anda.

Skrip Kerang

Langkah1: Siapkan file konfigurasi

Pengguna dapat dengan mudah mengonfigurasi parameter EasyInstruct dalam file bergaya YAML atau dengan cepat menggunakan parameter default di file konfigurasi yang kami sediakan. Berikut adalah contoh file konfigurasi untuk Self-Instruct:

 generator :
  SelfInstructGenerator :
    target_dir : data/generations/
    data_format : alpaca
    seed_tasks_path : data/seed_tasks.jsonl
    generated_instructions_path : generated_instructions.jsonl
    generated_instances_path : generated_instances.jsonl
    num_instructions_to_generate : 100
    engine : gpt-3.5-turbo
    num_prompt_instructions : 8

Contoh file konfigurasi lainnya dapat ditemukan di configs.

Langkah2: Jalankan skrip shell

Pengguna harus terlebih dahulu menentukan file konfigurasi dan memberikan kunci API OpenAI mereka sendiri. Kemudian, jalankan skrip shell berikut untuk meluncurkan proses pembuatan atau pemilihan instruksi.

config_file= " "
openai_api_key= " "

python demo/run.py 
    --config  $config_file 
    --openai_api_key $openai_api_key

Aplikasi Gradio

Kami menyediakan aplikasi Gradio bagi pengguna untuk memulai EasyInstruct dengan cepat. Anda dapat menjalankan perintah berikut untuk meluncurkan aplikasi Gradio secara lokal pada port 8080 (jika tersedia).

python demo/app.py

Kami juga menghosting aplikasi gradio yang sedang berjalan di HuggingFace Spaces. Anda dapat mencobanya di sini.

?Gunakan EasyInstruct

Silakan merujuk ke dokumentasi kami untuk lebih jelasnya.

Generator

Modul Generators menyederhanakan proses pembuatan data instruksi, memungkinkan pembuatan data instruksi berdasarkan data awal. Anda dapat memilih generator yang sesuai berdasarkan kebutuhan spesifik Anda.

Generator Basis

BaseGenerator adalah kelas dasar untuk semua generator.

Anda juga dapat dengan mudah mewarisi kelas dasar ini untuk menyesuaikan kelas generator Anda sendiri. Ganti saja metode __init__ dan generate .

SelfInstructGenerator

SelfInstructGenerator adalah kelas untuk metode pembuatan instruksi Self-Instruct. Lihat Instruksi Mandiri: Menyelaraskan Model Bahasa dengan Instruksi yang Dibuat Sendiri untuk lebih jelasnya.

Contoh

 from easyinstruct import SelfInstructGenerator
from easyinstruct . utils . api import set_openai_key

# Step1: Set your own API-KEY
set_openai_key ( "YOUR-KEY" )

# Step2: Declare a generator class
generator = SelfInstructGenerator ( num_instructions_to_generate = 10 )

# Step3: Generate self-instruct data
generator . generate ()

Generator Terjemahan Kembali

BacktranslationGenerator adalah kelas untuk metode pembuatan instruksi dari Instruksi Backtranslation. Lihat Penyelarasan Diri dengan Terjemahan Balik Instruksi untuk lebih jelasnya.

Contoh

 from easyinstruct import BacktranslationGenerator
from easyinstruct . utils . api import set_openai_key

# Step1: Set your own API-KEY
set_openai_key ( "YOUR-KEY" )

# Step2: Declare a generator class
generator = BacktranslationGenerator ( num_instructions_to_generate = 10 )

# Step3: Generate backtranslation data
generator . generate ()

EvolInstructGenerator

EvolInstructGenerator adalah kelas untuk metode pembuatan instruksi EvolInstruct. Lihat WizardLM: Memberdayakan Model Bahasa Besar untuk Mengikuti Instruksi Kompleks untuk detail selengkapnya.

Contoh

 from easyinstruct import EvolInstructGenerator
from easyinstruct . utils . api import set_openai_key

# Step1: Set your own API-KEY
set_openai_key ( "YOUR-KEY" )

# Step2: Declare a generator class
generator = EvolInstructGenerator ( num_instructions_to_generate = 10 )

# Step3: Generate evolution data
generator . generate ()

KG2InstructGenerator

KG2InstructGenerator adalah kelas untuk metode pembuatan instruksi KG2Instruct. Lihat InstructIE: Kumpulan Data Ekstraksi Informasi Berbasis Instruksi Tiongkok untuk detail selengkapnya.

Penyeleksi

Modul Selectors menstandardisasi proses pemilihan instruksi, memungkinkan ekstraksi kumpulan data instruksi berkualitas tinggi dari data instruksi mentah yang belum diproses. Data mentah dapat bersumber dari kumpulan data instruksi yang tersedia untuk umum atau dihasilkan oleh kerangka kerja itu sendiri. Anda dapat memilih pemilih yang sesuai berdasarkan kebutuhan spesifik Anda.

Pemilih Dasar

BaseSelector adalah kelas dasar untuk semua penyeleksi.

Anda juga dapat dengan mudah mewarisi kelas dasar ini untuk menyesuaikan kelas pemilih Anda sendiri. Ganti saja metode __init__ dan __process__ .

Penghapus duplikat

Deduplicator adalah kelas untuk menghilangkan sampel instruksi duplikat yang dapat berdampak buruk pada stabilitas pra-pelatihan dan kinerja LLM. Deduplicator juga dapat memungkinkan penggunaan yang efisien dan optimalisasi ruang penyimpanan.

Pemilih Panjang

LengthSelector adalah kelas untuk memilih sampel instruksi berdasarkan panjang instruksi. Instruksi yang terlalu panjang atau terlalu pendek dapat mempengaruhi kualitas data dan tidak kondusif untuk penyetelan instruksi.

Pemilih Merah

RougeSelector adalah kelas untuk memilih sampel instruksi berdasarkan metrik ROUGE yang sering digunakan untuk mengevaluasi kualitas pembuatan teks otomatis.

Pemilih Skor GPTS

GPTScoreSelector adalah kelas untuk memilih sampel instruksi berdasarkan skor GPT, yang mencerminkan apakah outputnya merupakan contoh yang baik tentang bagaimana Asisten AI harus merespons instruksi pengguna, yang disediakan oleh ChatGPT.

Pemilih PPLS

PPLSelector adalah kelas untuk memilih sampel instruksi berdasarkan kebingungannya, yang merupakan rata-rata eksponensial log kemungkinan respons negatif.

Pemilih MTLD

MTLDSelector adalah kelas untuk memilih sampel instruksi berdasarkan MTLD, yang merupakan kependekan dari Measure of Textual Lexical Diversity.

Pemilih Kode

CodeSelector adalah kelas untuk memilih sampel instruksi kode berdasarkan Complexity-Impacted Reasoning Score (CIRS), yang menggabungkan atribut struktural dan logis, untuk mengukur korelasi antara kode dan kemampuan penalaran. Lihat Kapan Program Pemikiran Berfungsi untuk Penalaran? untuk lebih jelasnya.

Contoh

 from easyinstruct import CodeSelector

# Step1: Specify your source file of code instructions
src_file = "data/code_example.json"

# Step2: Declare a code selecter class
selector = CodeSelector (
    source_file_path = src_file , 
    target_dir = "data/selections/" ,
    manually_partion_data = True ,
    min_boundary = 0.125 ,
    max_boundary = 0.5 ,
    automatically_partion_data = True ,
    k_means_cluster_number = 2 ,
    )

# Step3: Process the code instructions
selector . process ()

MultiSelektor

MultiSelector adalah kelas untuk menggabungkan beberapa penyeleksi yang sesuai berdasarkan kebutuhan spesifik Anda.

Anjuran

Modul Prompts menstandardisasi langkah permintaan instruksi, di mana permintaan pengguna dibuat sebagai permintaan instruksi dan dikirim ke LLM tertentu untuk mendapatkan tanggapan. Anda dapat memilih metode dorongan yang sesuai berdasarkan kebutuhan spesifik Anda.

Silakan periksa tautan untuk rincian lebih lanjut.

Mesin

Modul Engines menstandardisasi proses eksekusi instruksi, memungkinkan eksekusi perintah instruksi pada LLM tertentu yang diterapkan secara lokal. Anda dapat memilih mesin yang sesuai berdasarkan kebutuhan spesifik Anda.

Silakan periksa tautan untuk rincian lebih lanjut.

Kutipan

Silakan kutip repositori kami jika Anda menggunakan EasyInstruct dalam pekerjaan Anda.

 @article { ou2024easyinstruct ,
  title = { EasyInstruct: An Easy-to-use Instruction Processing Framework for Large Language Models } ,
  author = { Ou, Yixin and Zhang, Ningyu and Gui, Honghao and Xu, Ziwen and Qiao, Shuofei and Bi, Zhen and Chen, Huajun } ,
  journal = { arXiv preprint arXiv:2402.03049 } ,
  year = { 2024 }
}

@misc { knowlm ,
  author = { Ningyu Zhang and Jintian Zhang and Xiaohan Wang and Honghao Gui and Kangwei Liu and Yinuo Jiang and Xiang Chen and Shengyu Mao and Shuofei Qiao and Yuqi Zhu and Zhen Bi and Jing Chen and Xiaozhuan Liang and Yixin Ou and Runnan Fang and Zekun Xi and Xin Xu and Lei Li and Peng Wang and Mengru Wang and Yunzhi Yao and Bozhong Tian and Yin Fang and Guozhou Zheng and Huajun Chen } ,
  title = { KnowLM: An Open-sourced Knowledgeable Large Langugae Model Framework } ,
  year = { 2023 } ,
 url = { http://knowlm.zjukg.cn/ } ,
}

@article { bi2023program ,
  title = { When do program-of-thoughts work for reasoning? } ,
  author = { Bi, Zhen and Zhang, Ningyu and Jiang, Yinuo and Deng, Shumin and Zheng, Guozhou and Chen, Huajun } ,
  journal = { arXiv preprint arXiv:2308.15452 } ,
  year = { 2023 }
}

?Kontributor

Kami akan menawarkan pemeliharaan jangka panjang untuk memperbaiki bug, menyelesaikan masalah, dan memenuhi permintaan baru. Jadi jika Anda mempunyai masalah, silakan sampaikan masalahnya kepada kami.

Proyek Terkait Lainnya

Instruksikan Sendiri
alpaka

? Kami ingin mengucapkan terima kasih yang sebesar-besarnya atas kontribusi Self-Instruct pada proyek kami, karena kami telah menggunakan sebagian dari kode sumber mereka dalam proyek kami.

Memperluas

Informasi Tambahan

Versi 1.0.0
Tipe Kode Sumber AI
Waktu Pembaruan 2024-12-09
ukuran 19.4MB
Berasal dari Github

Aplikasi Terkait

node telegram bot api

2024-12-14
typebot.io

2024-12-14
python wechaty getting started

2024-12-14
TranscriberBot

2024-12-14
genal chat

2024-12-14
Facemoji

2024-12-14

Direkomendasikan untuk Anda

chat.petals.dev

Kode sumber lainnya

1.0.0
GPT Prompt Templates

Kode sumber lainnya

1.0.0
GPTyped

Kode sumber lainnya

GPTyped 1.0.5
node telegram bot api

Kode Sumber AI

v0.50.0
typebot.io

Kode Sumber AI

v3.1.2
python wechaty getting started

Kode Sumber AI

1.0.0
waymo open dataset

Kode sumber lainnya

December 2023 Update
termwind

Kategori lainnya

v2.3.0
wp functions

Kategori lainnya

1.0.0

Informasi Terkait Semua