Daftar kumpulan data, model, makalah, repositori penyetelan instruksi sumber terbuka.
Mengikuti Longpre et al., kami mencantumkan semua kumpulan data penyetelan instruksi yang ada yang dimodifikasi dari tugas NLP tradisional.
Melepaskan | Kumpulan data | Jumlah Tugas | Jumlah Instance | Nama_model | Basis | Model_Ukuran |
---|---|---|---|---|---|---|
2020-05 | QA Terpadu | 46 | 750k | QA Terpadu | Roberta | 110-340 M |
2021-04 | lintasfit | 159 | 71.M | BART-CrossFit | BART | 140 M |
2021-04 | Inst Alami v1.0 | 61 | 620rb | Jenderal BART | BART | 140 M |
2021-09 | Fla 2021 | 62 | 4,4 juta | Flan-LaMDA | LaMDA | 137B |
2021-10 | hal3 | 62 | 12M | KE, KE+, KE++ | T5-LM | 3-11B |
2021-10 | LogamCL | 142 | 3,5 juta | LogamCL | GPT-2 | 770 M |
2021-11 | MantanMix | 107 | 500rb | ExT5 | T5 | 220M-11B |
2022-04 | Inst. Super-Alam. | 1613 | 5M | Tk-Instruksikan | T5-LM, mT5 | 17-13B |
2022-10 | GLM | 77 | 12M | GLM-130B | GLM | 130B |
2022-10 | Fla 2022 | 1836 | 15M | Flan-T5, Flan-PaLM | T5-LM, PaLM | 10M-540B |
2022-11 | xP3 | 71 | 81M | MEKAR, mTO | MEKAR, mT5 | 13-176B |
2022-12 | Inst yang tidak wajar. | 117 | 64rb | T5-LM-Unnat. Inst. | T5-LM | 11B |
Melepaskan | Nama_model | Basis | Model_Ukuran | Kumpulan data | Jumlah Instance | Bahasa |
---|---|---|---|---|---|---|
2022-12 | GPT-3 Instansi Mandiri. | GPT-3 | 175B | Instruksikan Sendiri | 82rb | En |
03-03-2023 | alpaka | LLaMA | 7B | alpaka_data | 52rb | En |
19-03-2023 | alpaka-lora | LLaMA | 7B 13B 30B | alpaca_data、alpaca_data_clean | 52rb | En |
23-03-2023 | Cina-Vicuna | LLaMA | 7B 13B | BELLE、GuanacoDataset | 1M | Zh |
24-03-2023 | Alpaka-CoT | LLaMA | 7B | kumpulan data | ---- | Dan Zh |
25-03-2023 | boneka | boneka | 6B | alpaka_data | 52rb | En |
25-03-2023 | guanaco | LLaMA | 7B | Kumpulan Data Guanaco | 534rb | En Zh Ja De |
28-03-2023 | Cina-LLaMA-Alpaca | LLaMA | 7B | alpaca_data_zh、pCLUE、translation2019zh、alpaca_data、Instruksi Mandiri | 2M | Zh |
29-03-2023 | Obrolan Kolosal | LLaMA | 7B 13B | InstruksiLiar | 104rb | Dan Zh |
31-03-2023 | Luotuo | Obrolan LLaMAGLM | 7B 6B | trans_chinese_alpaca_data | 52k | Zh |
31-03-2023 | cerebra-lora-alpaca | Otak-GPT | 2.7B | AlpacaDataDibersihkan | 52k | En |
Sebagian besar kumpulan data yang ada dalam bahasa Inggris. Namun, sebagian besar penduduk dunia kurang terlayani dalam hal ketersediaan data untuk bahasa mereka. Bagaimana cara memastikan bahwa semua orang di seluruh dunia dapat memperoleh manfaat dari AI generatif? Kami telah mengembangkan alat penerjemahan yang lugas dan bersumber terbuka berdasarkan Helsinki-NLP, yang mampu menerjemahkan kumpulan data bahasa Inggris ke lebih dari 100 bahasa tanpa biaya. Meskipun kumpulan data yang diterjemahkan ini mungkin mengandung beberapa gangguan, namun kumpulan data ini berfungsi sebagai alternatif yang layak dibandingkan data yang mahal dan berkualitas tinggi. Lihat di bawah.
python translator.py model_name source_data_path
python translator.py Helsinki-NLP/opus-mt-en-zh alpaca_data.json
Alat kami dirancang untuk bekerja dengan data alpaka dan model Helsinki-NLP/opus-mt-en-zh. Kumpulan data atau model Helsinki-NLP yang berbeda menghasilkan hasil yang berbeda-beda. Karena keterbatasan model, Terkendala oleh kemampuan model, kualitas terjemahan mungkin tidak selalu optimal. Misalnya, kami mengamati contoh pengulangan kata dalam terjemahan dari bahasa Inggris ke bahasa Mandarin, yang mengarahkan kami untuk mengembangkan "process.py" untuk menghilangkan perintah terjemahan yang berisi string dengan panjang berapa pun yang muncul tiga kali berturut-turut. Kami menyediakan versi final di "translated_alpaca_data.json".
python process.py unprocessed_data_path
python process.py translated_data.json
# model Helsinki-NLP mungkin memiliki batas maksimum panjang kalimat masukan. Kami telah membuang petunjuk yang melebihi batas sebelum menerjemahkannya.
Kami telah meninjau makalah secara ekstensif di bidang ini dan telah mencantumkan makalah yang paling berharga di bawah ini:
Model bahasa yang disempurnakan adalah pembelajar zero-shot 2021.9
Pelatihan Multitask yang Diminta Memungkinkan Generalisasi Tugas Zero-Shot 2021.10
Melatih model bahasa untuk mengikuti instruksi dengan umpan balik manusia 2022.3
Petunjuk Super-Alami: Generalisasi melalui Instruksi Deklaratif pada 1600+ Tugas NLP 2022.4
Generalisasi Lintas Tugas Tanpa Pengawasan melalui Retrieval Augmentation 2022.4
Induksi Instruksi: Dari Sedikit Contoh hingga Deskripsi Tugas Bahasa Alami 2022.5
Penskalaan Model Bahasa yang Diselesaikan dengan Instruksi 2022.10
Tebak Instruksinya! Pembelajaran Terbalik Membuat Model Bahasa Lebih Kuat Pembelajar Zero-Shot 2022.10
Instruksi Tidak Wajar: Menyesuaikan Model Bahasa dengan (Hampir) Tanpa Tenaga Kerja Manusia 2022.12
Meningkatkan Generalisasi Lintas Tugas Model Tabel-ke-teks Terpadu dengan Konfigurasi Tugas Komposisi 2022.12
Instruksi Mandiri: Menyelaraskan Model Bahasa dengan Instruksi yang Dibuat Sendiri 2022.12
MultiInstruct: Meningkatkan Pembelajaran Zero-Shot Multi-Modal melalui Penyetelan Instruksi 2022.12
Koleksi Flan: Merancang Data dan Metode Penyetelan Instruksi yang Efektif 2023.1
Pembelajaran Instruksi Dalam Konteks 2023.2
Selain itu, kami telah menyediakan daftar repositori terkait untuk referensi lebih lanjut.
pembelajaran-instruksi yang luar biasa
kumpulan data instruksi yang mengagumkan
ICL_Daftar Kertas
pembelajaran cepat dalam konteks
Penalaran LM
Makalah Penalaran LLM
Makalah Rantai Pemikiran
BukaICL