Kumpulan Data Penyelarasan • Kumpulan Data khusus domain • Kumpulan Data Pra-pelatihan ?️ Kumpulan Data Multimodal
Model bahasa besar (LLM), seperti seri GPT OpenAI, Bard dari Google, dan Wenxin Yiyan dari Baidu, mendorong perubahan teknologi yang besar. Baru-baru ini, dengan munculnya kerangka model sumber terbuka yang besar seperti LlaMa dan ChatGLM, pelatihan LLM tidak lagi menjadi domain eksklusif perusahaan kaya sumber daya. Pelatihan LLM oleh organisasi kecil atau individu telah menjadi minat penting dalam komunitas sumber terbuka, dengan beberapa karya terkenal termasuk Alpaca, Vicuna, dan Luotuo. Selain kerangka model yang besar, korpora pelatihan berskala besar dan berkualitas tinggi juga penting untuk melatih model bahasa yang besar. Saat ini, korpora open source yang relevan di masyarakat masih tersebar. Oleh karena itu, tujuan dari repositori ini adalah untuk terus mengumpulkan korpora pelatihan berkualitas tinggi untuk LLM di komunitas sumber terbuka.
Melatih LLM chatbot yang dapat mengikuti instruksi manusia secara efektif memerlukan akses ke kumpulan data berkualitas tinggi yang mencakup berbagai domain dan gaya percakapan. Dalam repositori ini, kami menyediakan kumpulan kumpulan data kurasi yang dirancang khusus untuk pelatihan chatbot, termasuk tautan, ukuran, bahasa, penggunaan, dan deskripsi singkat setiap kumpulan data. Tujuan kami adalah memudahkan peneliti dan praktisi dalam mengidentifikasi dan memilih kumpulan data yang paling relevan dan berguna untuk kebutuhan pelatihan chatbot LLM mereka. Baik Anda berupaya meningkatkan kualitas dialog chatbot, menghasilkan respons, atau pemahaman bahasa, repositori ini memiliki sesuatu untuk Anda.
Jika Anda ingin berkontribusi, Anda dapat menghubungi:
Junhao Zhao?
Dibimbing oleh Prof. Wanyun Cui
Nama kumpulan data | Digunakan oleh | Jenis | Bahasa | Ukuran | Deskripsi️ |
---|---|---|---|---|---|
bantuanSteer | / | RLHF | Bahasa inggris | 37k contoh | Kumpulan data RLHF yang dianotasi oleh manusia dengan ukuran kegunaan, kebenaran, koherensi, kompleksitas, dan verbositas |
tidak_robot | / | SFT | Bahasa inggris | 10 ribu contoh | Data STF buatan manusia berkualitas tinggi, satu putaran. |
Nama kumpulan data | Digunakan oleh | Jenis | Bahasa | Ukuran | Deskripsi️ |
---|---|---|---|---|---|
Antropis_ HH_Emas | ULMA | SFT / RLHF | Bahasa inggris | latih 42,5k + tes 2,3k | Peningkatan pada kumpulan data yang tidak berbahaya dari kumpulan data Helpful and Harmless (HH) Anthropic. Menggunakan GPT4 untuk menulis ulang jawaban asli yang "dipilih". Dibandingkan dengan kumpulan data Harmless asli, secara empiris kumpulan data ini meningkatkan performa metode RLHF, DPO, atau ULMA secara signifikan pada metrik tidak berbahaya. |
Nama kumpulan data | Digunakan oleh | Jenis | Bahasa | Ukuran | Deskripsi️ |
---|---|---|---|---|---|
fungsi_ panggilan_ diperpanjang | / | berpasangan | Bahasa inggris kode | / | Kumpulan data buatan manusia berkualitas tinggi dari peningkatan kemampuan penggunaan API LM. |
Cerita Amerika | / | PT | Bahasa inggris | / | Korpus berukuran besar dipindai dari Perpustakaan Kongres AS. |
dolma | OLMo | PT | / | token 3T | Korpus sumber terbuka yang sangat beragam untuk pra-pelatihan LM. |
Platipus | Platipus2 | berpasangan | Bahasa inggris | 25K | Kumpulan data berkualitas sangat tinggi untuk meningkatkan kemampuan penalaran STEM LM. |
burung puffin | Redmond-Puffin Seri | Dialog | Bahasa inggris | ~3k entri | Kumpulan data terdiri dari percakapan antara manusia nyata dan GPT-4, yang menampilkan konteks panjang (lebih dari 1 ribu token per percakapan) dan dialog multi-putaran. |
seri kecil | / | berpasangan | Bahasa inggris | / | Serangkaian kode atau teks yang singkat dan ringkas bertujuan untuk meningkatkan kemampuan penalaran LM. |
Bangku Panjang | / | Evaluasi Hanya | Bahasa inggris Cina | 17 tugas | Tolok ukur untuk mengevaluasi kemampuan pemahaman konteks panjang LLM. |
Nama kumpulan data | Digunakan oleh | Jenis | Bahasa | Ukuran | Deskripsi️ |
---|---|---|---|---|---|
obrolan orca | / | Dialog | Bahasa inggris | 198.463 entri | Kumpulan data dialog gaya Orca bertujuan untuk meningkatkan kemampuan percakapan konteks panjang LM. |
DialogStudio | / | Dialog | Multibahasa | / | Kumpulan kumpulan data yang beragam bertujuan untuk membangun Chatbot percakapan. |
chatbot_arena _percakapan | / | RLHF Dialog | Multibahasa | 33k percakapan | Percakapan yang dibersihkan dengan preferensi manusia berpasangan dikumpulkan di Chatbot Arena. |
WebGLM-qa | WebGLm | berpasangan | Bahasa inggris | 43.6k entri | Dataset yang digunakan oleh WebGLM, yang merupakan sistem QA berbasis LLM dan Internet. Setiap entri dalam kumpulan data ini terdiri dari pertanyaan, tanggapan, dan referensi. Tanggapannya didasarkan pada referensi. |
fi-1 | fi-1 | Dialog | Bahasa inggris | / | Kumpulan data yang dihasilkan dengan menggunakan metode dalam Buku Teks Yang Anda Butuhkan. Ini berfokus pada masalah matematika dan ilmu komputer. |
Linly- pra-pelatihan- kumpulan data | Seri Linly | PT | Cina | 3,4GB | Kumpulan data prapelatihan Tiongkok yang digunakan oleh model seri Linly, terdiri dari ClueCorpusSmall, perayapan berita CSL, dan lain-lain. |
RLHF Berbutir Halus | / | RLHF | Bahasa inggris | ~5K contoh | Repo bertujuan untuk mengembangkan kerangka kerja baru untuk mengumpulkan masukan manusia. Data yang dikumpulkan bertujuan untuk meningkatkan kebenaran faktual LLM, relevansi topik dan kemampuan lainnya. |
lumba-lumba | / | berpasangan | Bahasa inggris | 4,5 juta entri | Upaya untuk meniru Orca Microsoft. Berdasarkan FLANv2. |
buka obrolan_ berbagigpt4_ kumpulan data | Obrolan Terbuka | Dialog | Bahasa inggris | dialog 6k | Kumpulan data berkualitas tinggi yang dihasilkan dengan menggunakan GPT-4 untuk menyelesaikan perintah ShareGPT yang disempurnakan. |
Nama kumpulan data | Digunakan oleh | Jenis | Bahasa | Ukuran | Deskripsi️ |
---|---|---|---|---|---|
BukaOrca | / | berpasangan | Bahasa inggris | penyelesaian 4,5 juta | Kumpulan data FLAN yang ditambah. Dihasilkan dengan menggunakan metode kertas Orca. |
COIG-PC COIG-Lite | / | berpasangan | Cina | / | Versi COIG yang disempurnakan. |
PenyihirLM_Orca | seri orca_mini | berpasangan | Bahasa inggris | 55 ribu entri | Data WizardLM yang ditingkatkan. Dihasilkan dengan menggunakan metode orca. |
arxiv menginstruksikan kumpulan data matematika CS Fisika | / | berpasangan | Bahasa inggris | 50K/ 50K/ 30 ribu entri | dataset terdiri dari pasangan tanya jawab yang berasal dari abstrak ArXiv. Soal dihasilkan menggunakan model t5-base, sedangkan jawaban dihasilkan menggunakan model GPT-3.5-turbo. |
aku-perasaan- penasaran | / | berpasangan | Bahasa inggris | 2595 entri | Pertanyaan acak dan fakta terkait yang dihasilkan oleh Google Saya merasakan fitur penasaran . |
ign_clean _menginstruksikan _kumpulan data_500k | / | berpasangan | / | 509 ribu entri | Kumpulan data SFT berskala besar yang dibuat secara sintetis dari subkumpulan perintah Ultrachat. kurangnya datacard rinci |
PenyihirLM berevolusi_instruksikan V2 | PenyihirLM | Dialog | Bahasa inggris | 196 ribu entri | Versi terbaru dari kumpulan data Evolve Instruct. |
dinosaurus | / | berpasangan | Bahasa inggris | 800 ribu entri | Dataset dihasilkan dengan menerapkan metode dalam makalah ini. Sorotannya adalah menghasilkan data berkualitas tinggi dengan biaya rendah. |
Piyama Ramping | / | PT | Terutama Bahasa inggris | / | Versi RedPajama yang telah dibersihkan dan dihapus duplikatnya |
Kumpulan data LIMA | LIMA | berpasangan | Bahasa inggris | 1k entri | Kumpulan data SFT berkualitas tinggi yang digunakan oleh LIMA: Less Is More untuk Alignment |
Seri TigerBot | Bot Harimau | PT berpasangan | Cina Bahasa inggris | / | Kumpulan data yang digunakan untuk melatih TigerBot, termasuk data prapelatihan, data STF, dan beberapa kumpulan data khusus domain seperti laporan penelitian keuangan. |
TSI-v0 | / | berpasangan | Bahasa inggris | 30 ribu contoh per tugas | Data penyetelan instruksi multi-tugas disusun ulang dari 475 kumpulan data sumber tugas. Mirip dengan dataset Flan dan instruksi Natural. |
NMBVC | / | PT | Cina | / | Skala besar, terus memperbarui kumpulan data pra-pelatihan Tiongkok. |
StackOverflow pos | / | PT | / | 35GB | Data StackOverflow mentah dalam format penurunan harga, untuk pra-pelatihan. |
Nama kumpulan data | Digunakan oleh | Jenis | Bahasa | Ukuran | Deskripsi️ |
---|---|---|---|---|---|
LaMini-Instruksi | / | berpasangan | Bahasa inggris | 2,8 juta entri | Kumpulan data yang disaring dari koleksi flan, p3, dan instruksi mandiri. |
ultraChat | / | Dialog | Bahasa inggris | 1,57 juta dialog | Kumpulan data dialog berskala besar dibuat dengan menggunakan dua ChatGPT, salah satunya bertindak sebagai pengguna, yang lain menghasilkan respons. |
BagikanGPT_ Vicuna_tidak difilter | Vicuna | berpasangan | Multibahasa | 53 ribu entri | Kumpulan data ShareGPT yang dibersihkan. |
kumpulan data pku-saferlhf | Berang-berang | RLHF | Bahasa inggris | 10K + 1M | Kumpulan data pertama dari jenisnya dan berisi 10 ribu instans dengan preferensi keamanan. |
RefGPT-Dataset tautan tidak resmi | RefGPT | Berpasangan, Dialog | Cina | ~50 ribu entri | Kumpulan data dialog Tiongkok bertujuan untuk meningkatkan kebenaran fakta di LLM (mengurangi halusinasi LLM). |
Luotuo-QA-A CoQA-Cina | Proyek Luotuo | Konteks | Cina | 127 ribu pasangan QA | Kumpulan data yang dibangun berdasarkan CoQA yang diterjemahkan. Ditambah dengan menggunakan OpenAI API. |
Penyihir-LM-Cina instruksikan-evolusi | Proyek Luotuo | berpasangan | Cina | ~70 ribu entri | WizardLM 70K versi Cina. Jawaban diperoleh dengan feed pertanyaan yang diterjemahkan di API GPT OpenAI dan kemudian mendapatkan tanggapan. |
alpaca_chinese kumpulan data | / | berpasangan | Cina | / | Data alpaka terjemahan GPT-4 mencakup beberapa data pelengkap (seperti puisi Tiongkok, aplikasi, dll.). Diperiksa oleh manusia. |
Zhihu-KOL | Buka Asisten | berpasangan | Cina | 1,5GB | Data QA pada platform Zhihu QA Tiongkok yang terkenal. |
Alpaka-GPT-4_zh-cn | / | berpasangan | Cina | sekitar 50 ribu entri | Kumpulan data bergaya Alpaka Tiongkok, yang dihasilkan oleh GPT-4, aslinya dalam bahasa Tiongkok, tidak diterjemahkan. |
hh-rlhf di Huggingface | Koala | RLHF | Bahasa inggris | 161 ribu pasang 79,3MB | Kumpulan data berpasangan untuk melatih model penghargaan dalam pembelajaran penguatan guna meningkatkan sifat tidak berbahaya dan bermanfaat dari model bahasa. |
Kumpulan data Panther_v1 | Harimau kumbang | berpasangan | Bahasa inggris | 377 entri | Kumpulan data berasal dari hh-rlhf. Ini menulis ulang hh-rlhf ke dalam bentuk pasangan input-output. |
Kumpulan Data Baize | Kain tebal dr wol kasar | Dialog | Bahasa inggris | 100 ribu dialog | Kumpulan data dialog yang dihasilkan oleh GPT-4 menggunakan self-talking. Pertanyaan dan topik dikumpulkan dari Quora, StackOverflow dan beberapa sumber pengetahuan medis. |
h2ogpt-fortune2000 dipersonalisasi | h2ogpt | berpasangan | Bahasa inggris | 11363 entri | Penyempurnaan instruksi yang dikembangkan oleh h2oai, mencakup berbagai topik. |
kapal | StabilVicuna, pilihan obrolan, , SteamSHP | RLHF | Bahasa inggris | 385 ribu entri | Kumpulan data RLHF berbeda dari yang disebutkan sebelumnya, kumpulan data ini menggunakan skor+cap waktu untuk menyimpulkan preferensi pengguna. Mencakup 18 domain, dikumpulkan oleh Stanford. |
ELI5 | Seri MiniLM | SEPERTI, RLHF | Bahasa inggris | 270 ribu entri | Tanya Jawab dikumpulkan dari Reddit, termasuk skor. Mungkin digunakan untuk pelatihan model hadiah RLHF. |
PenyihirLM evolusi_instruksi V2 | PenyihirLM | berpasangan | Bahasa inggris | Kumpulan data penyempurnaan instruksi yang berasal dari Alpaca-52K, menggunakan metode evolusi dalam makalah ini | |
data MOSS SFT | LUMUT | berpasangan, Dialog | Cina, Inggris | 1,1 juta entri | Kumpulan data percakapan dikumpulkan dan dikembangkan oleh tim MOSS. Ini memiliki label kegunaan, loyalitas dan tidak berbahaya untuk setiap entri data. |
BagikanGPT52K | Koala, LLM Stabil | berpasangan | Multibahasa | 52K | Kumpulan data ini terdiri dari percakapan yang dikumpulkan dari ShareGPT, dengan fokus khusus pada percakapan kreatif yang disesuaikan. |
GPT-4semua Kumpulan Data | GPT-4semua | berpasangan | Bahasa inggris, Mungkin saja versi terjemahan | 400 ribu entri | Kombinasi beberapa subset OIG, P3 dan Stackoverflow. Meliputi topik seperti QA umum, pertanyaan kreatif yang disesuaikan. |
COIG | / | berpasangan | Cina, kode | 200 ribu entri | Kumpulan data berbasis di Tiongkok. Ini berisi domain seperti QA tujuan umum, ujian bahasa Mandarin, kode. Kualitasnya diperiksa oleh anotator manusia. |
RedPajama-Data-1T | Piyama Merah | PT | Terutama bahasa Inggris | 1,2T token 5TB | Kumpulan data prapelatihan yang sepenuhnya terbuka mengikuti metode LLaMA. |
OASST1 | Asisten Terbuka | berpasangan, Dialog | Multibahasa (Inggris, Spanyol, dll.) | 66.497 pohon percakapan | Kumpulan data percakapan berkualitas tinggi yang besar, ditulis oleh manusia, dan diberi anotasi manusia. Hal ini bertujuan agar LLM menghasilkan respon yang lebih natural. |
Alpaca-COT | Phoenix | berpasangan, Dialog, Pondok | Bahasa inggris | / | Campuran dari banyak kumpulan data seperti kumpulan data Alpaca klasik, OIG, Guanaco, dan beberapa kumpulan data CoT (Chain-of-Thought) seperti FLAN-CoT. Mungkin berguna untuk digunakan. |
Baktria-X | / | berpasangan | Multibahasa (52 bahasa) | 67 ribu entri per bahasa | Versi multibahasa Alpaca dan Dolly-15K . |
databricks-dolly-15k zh-cn Ver | Dolly2.0 | berpasangan | Bahasa inggris | 15K+ entri | Kumpulan data perintah dan tanggapan yang ditulis manusia , menampilkan tugas-tugas seperti menjawab pertanyaan domain terbuka, bertukar pikiran, meringkas, dan banyak lagi. |
AlpacaDataDibersihkan | Beberapa model mirip Alpaca/LLaMA | berpasangan | Bahasa inggris | / | Versi Alpaca, GPT_LLM dan GPTeacher yang telah dibersihkan. |
Kumpulan Data GPT-4-LLM | Beberapa model mirip Alpaca | berpasangan, RLHF | Bahasa inggris, Cina | 52 ribu entri masing-masing untuk bahasa Inggris dan Cina Entri 9K instruksi yang tidak wajar | BUKAN kumpulan data yang digunakan oleh GPT-4!! Ini dihasilkan oleh GPT-4 dan beberapa LLM lainnya untuk Pasangan dan RLHF yang lebih baik. Ini mencakup data instruksi serta data perbandingan dalam gaya RLHF. |
Guru GP | / | berpasangan | Bahasa inggris | 20 ribu entri | Kumpulan data berisi target yang dihasilkan oleh GPT-4 dan mencakup banyak tugas awal yang sama dengan kumpulan data Alpaca, dengan tambahan beberapa tugas baru seperti permainan peran. |
HC3 | Koala | RLHF | Bahasa inggris, Cina | 24322 Bahasa Inggris 12853 Cina | Kumpulan data perbandingan multi-domain, manusia-vs-ChatGPT. Dapat digunakan untuk pelatihan model hadiah atau pelatihan pendeteksi ChatGPT. |
Data alpaka Unduh | Alpaca, ChatGLM-finetune-LoRA, Koala | Dialog, berpasangan | Bahasa inggris | 52 ribu entri 21,4MB | Kumpulan data yang dihasilkan oleh text-davinci-003 untuk meningkatkan kemampuan model bahasa dalam mengikuti instruksi manusia. |
OIG OIG-chip-kecil2 | Pythia-Obrolan-Base-7B, GPT-NeoXT-Chat-Base-20B, Koala | Dialog, berpasangan | Bahasa inggris, kode | 44 juta entri | Kumpulan data instruksi percakapan besar dengan subset kualitas sedang dan tinggi (OIG-small-chip2) untuk pembelajaran multi-tugas. |
Data ObrolanAlpaca | / | Dialog, berpasangan | Bahasa inggris, Versi Cina segera hadir | 10k entri 39,5MB | Kumpulan data bertujuan untuk membantu peneliti mengembangkan model untuk mengikuti instruksi dalam percakapan multi-putaran. |
InstruksiLiar | Obrolan Kolosal | berpasangan | Inggris, Cina | 10K enreue | Kumpulan data bergaya Alpaca, tetapi dengan tugas awal berasal dari tangkapan layar chatgpt. |
Kunang-kunang (流萤) | Kunang-kunang (流萤) | berpasangan | Cina | 1,1 juta entri 1,17GB | Kumpulan data penyesuaian instruksi berbahasa Mandarin dengan 1,1 juta contoh yang ditulis manusia dalam 23 tugas, tetapi tidak ada percakapan. |
BELLE versi 0,5M versi 1M versi 2M | Seri BELLE, Chunhua (春华) | berpasangan | Cina | Totalnya 2,67 miliar | Kumpulan data instruksi berbahasa Mandarin yang mirip dengan data Alpaca dibuat dengan menghasilkan jawaban dari tugas awal, tetapi tidak ada percakapan. |
Kumpulan Data Guanaco | guanaco | Dialog, berpasangan | Bahasa inggris, Cina, Jepang | 534.530 entri | Kumpulan data instruksi multibahasa untuk meningkatkan kemampuan model bahasa dalam berbagai tugas linguistik, seperti pemahaman bahasa alami dan pengenalan konten eksplisit. |
OpenAI WebGPT | Model penghargaan WebGPT, Koala | RLHF | Bahasa inggris | 19.578 pasang | Kumpulan data yang digunakan dalam makalah WebGPT. Digunakan untuk melatih model penghargaan di RLHF. |
OpenAI Peringkasan Perbandingan | Koala | RLHF | Bahasa inggris | ~93 ribu entri 420MB | Kumpulan data umpan balik manusia yang membantu melatih model penghargaan. Model penghargaan kemudian digunakan untuk melatih model peringkasan agar selaras dengan preferensi manusia. |
menginstruksikan diri sendiri | / | berpasangan | Bahasa inggris | 82 ribu entri | Kumpulan data dihasilkan dengan menggunakan metode instruksi mandiri yang terkenal |
instruksi yang tidak wajar | / | berpasangan | Bahasa inggris | 240.670 contoh | Upaya awal untuk menggunakan model yang kuat (text-davinci-002) untuk menghasilkan data. |
xP3 (dan beberapa varian) | BLOOMZ, mT0 | berpasangan | Multibahasa, kode | 79 juta entri 88GB | Kumpulan data instruksi untuk meningkatkan kemampuan generalisasi model bahasa, mirip dengan Natural Instruct . |
flan v2 | / | / | Bahasa inggris | / | Kumpulan data mengkompilasi kumpulan data dari Flan 2021, P3, Petunjuk Super-Natural, serta lusinan kumpulan data lainnya menjadi satu dan memformatnya menjadi campuran templat zero-shot, multiple-shot, dan rantai pemikiran |
Instruksi Alami GitHub & Unduh | seri tk-instruct | berpasangan, evaluasi | Multibahasa | / | Tolok ukur dengan lebih dari 1.600 tugas dengan instruksi dan definisi untuk mengevaluasi dan meningkatkan generalisasi multitugas model bahasa dalam pengajaran bahasa alami. |
LintasWOZ | / | Dialog | Bahasa inggris, Cina | Dialog 6K | Kumpulan data yang diperkenalkan oleh makalah ini, terutama tentang topik pariwisata di Beijing, jawabannya dihasilkan secara otomatis oleh aturan. |
Kami menganggap item baris sebagai subjek.
OIG | hh-rlhf | xP3 | instruksi alami | AlpacaDataDibersihkan | GPT-4-LLM | Alpaka-CoT | |
---|---|---|---|---|---|---|---|
OIG | / | berisi | tumpang tindih | tumpang tindih | tumpang tindih | tumpang tindih | |
hh-rlhf | bagian dari | / | tumpang tindih | ||||
xP3 | tumpang tindih | / | tumpang tindih | tumpang tindih | |||
instruksi alami | tumpang tindih | tumpang tindih | / | tumpang tindih | |||
AlpacaDataDibersihkan | tumpang tindih | / | tumpang tindih | tumpang tindih | |||
GPT-4-LLM | tumpang tindih | / | tumpang tindih | ||||
Alpaka-CoT | tumpang tindih | tumpang tindih | tumpang tindih | tumpang tindih | tumpang tindih | tumpang tindih | / |
Nama kumpulan data | Digunakan oleh | Jenis | Bahasa | Ukuran | Deskripsi️ |
---|---|---|---|---|---|
tumpukan bukti | bukti-GPT | PT | Bahasa inggris Getah | 13GB | Kumpulan data prapelatihan yang mirip dengan tumpukan tetapi memiliki korpus LaTeX untuk meningkatkan kemampuan pembuktian LM. |
peS2o | / | PT | Bahasa inggris | 7,5GB | Kumpulan data makalah akademis berkualitas tinggi untuk pra-pelatihan. |
StackOverflow pos | / | PT | / | 35GB | Data StackOverflow mentah dalam format penurunan harga, untuk pra-pelatihan. |
Piyama Ramping | / | PT | Terutama Bahasa inggris | / | Versi RedPajama yang telah dibersihkan dan dihapus duplikatnya |
NMBVC | / | PT | Cina | / | Skala besar, terus memperbarui kumpulan data pra-pelatihan Tiongkok. |
web halus elang | seri tiiuae/elang | PT | Bahasa inggris | / | Subset yang disempurnakan dari CommonCrawl. |
CBook-150K | / | PT, membangun kumpulan data | Cina | 150K+ buku | Kumpulan data buku berbahasa Mandarin mentah. Perlu beberapa pipeline praproses. |
Perayapan Umum | LLaMA (Setelah beberapa proses) | membangun kumpulan data, PT | / | / | Kumpulan data mentah paling terkenal, jarang digunakan secara langsung. Salah satu pipeline praproses yang mungkin adalah CCNet |
nlp_Cina_Corpus | / | PT, TF | Cina | / | Korpus pra-latihan Tiongkok. Termasuk Wikipedia, Baidu Baike, Baidu QA, beberapa forum QA dan korpus berita. |
Tumpukan (V1) | GLM (sebagian), LLaMA (sebagian), GPT-J, GPT-NeoX-20B, Cerebras-GPT 6.7B, OPT-175b | PT | Multibahasa, kode | 825GB | Kumpulan data pemodelan bahasa sumber terbuka yang beragam yang terdiri dari 22 kumpulan data kecil dan berkualitas tinggi yang mencakup banyak domain dan tugas. |
C4 Kumpulan data wajah berpelukan Kumpulan data TensorFlow | Seri Google T5, LLaMA | PT | Bahasa inggris | 305GB | Versi korpus perayapan web Common Crawl yang sangat besar dan bersih. Sering digunakan. |
AKAR | BUNGA | PT | Multibahasa, kode | 1,6 TB | Kumpulan data sumber terbuka yang beragam yang terdiri dari sub-kumpulan data seperti Wikipedia dan StackExchange untuk pemodelan bahasa. |
Reddit.PushshPairs kertas | MEMILIH-175b | PT | / | / | Data reddit mentah, salah satu kemungkinan jalur pemrosesan dalam makalah ini |
Proyek Gutenberg | LLaMA | PT | Multibahasa | / | Kumpulan data buku, sebagian besar novel. Tidak diproses sebelumnya. |
CLUECorpus | / | PT, menyempurnakan, evaluasi | Cina | 100GB | Corpus pra-pelatihan Tiongkok yang bersumber dari Common Crawl . |
Nama kumpulan data | Digunakan oleh | Jenis | Bahasa | Ukuran | Deskripsi️ |
---|---|---|---|---|---|
data starcoder | pembuat kode bintang seri | PT | kode | 783GB | Kumpulan data prapelatihan yang besar untuk meningkatkan kemampuan coding LM. |
kode_ instruksi _120rb_alpaca | / | berpasangan | Bahasa Inggris/kode | 121.959 entri | code_instruction dalam format penyempurnaan instruksi. |
fungsi- doa-25k | beberapa MPT varian | berpasangan | kode bahasa Inggris | 25 ribu entri | Kumpulan data bertujuan untuk mengajarkan model AI cara menjalankan fungsi APIsGuru dengan benar berdasarkan perintah bahasa alami. |
TeoremaQA | / | berpasangan | Bahasa inggris | 800 | Kumpulan data QA teori STEM berkualitas tinggi. |
fi-1 | fi-1 | Dialog | Bahasa inggris | / | Kumpulan data yang dihasilkan dengan menggunakan metode dalam Buku Teks Yang Anda Butuhkan. Ini berfokus pada masalah matematika dan ilmu komputer. |
FinNLP | FinGPT | Data mentah | Bahasa inggris, Cina | / | Data teks keuangan mentah sumber terbuka. Termasuk berita, media sosial, dan lain-lain. |
PRM800K | Varian dari GPT-4 | Konteks | Bahasa inggris | 800 ribu entri | Kumpulan data pengawasan proses untuk masalah matematika |
Data MeChat | Obrolan Saya | Dialog | Cina | 355733 ucapan | Kumpulan data SFT Tiongkok untuk melatih chatbot perawatan kesehatan mental. |
ChatGPT-Jailbreak-Permintaan | / | / | Bahasa inggris | Ukuran file 163KB | Anjuran untuk melewati peraturan keamanan ChatGPT. Dapat digunakan untuk menyelidiki tidak berbahayanya LLM |
bahasa Cina yang luar biasa sumber daya hukum | HukumWGPT | / | Cina | / | Kumpulan data hukum Tiongkok untuk pelatihan LLM. |
Bentuk Panjang | / | berpasangan | Bahasa inggris | 23,7 ribu entri | Kumpulan data bertujuan untuk meningkatkan kemampuan pembuatan teks panjang LLM. |
penyetelan instruksi simbolis | / | berpasangan | Bahasa inggris, kode | 796 | Kumpulan data berfokus pada tugas 'simbolis': seperti pengkodean SQL, perhitungan matematika, dll. |
Perintah Keamanan | / | Evaluasi saja | Cina | 100k entri | Keselamatan Tiongkok mendorong untuk mengevaluasi dan meningkatkan keamanan LLM. |
Dibersihkan Tapir | / | berpasangan | Bahasa inggris, | 116k entri | Ini adalah versi revisi dari kumpulan data DAISLab dari aturan PairsTT, yang telah dibersihkan, diberi skor, dan disesuaikan secara menyeluruh untuk tujuan penyesuaian instruksi |
instruksional_ codesearchnet_python | / | berpasangan | Bahasa inggris & ular piton | 192MB | Kumpulan data ini adalah kumpulan data instruksional Python yang dihasilkan templat yang dihasilkan dari versi kumpulan data code-search-net yang dianotasi untuk proyek Open-Assistant. |
keuangan-alpaca | / | berpasangan | Bahasa inggris | 1,3 ribu entri | Kumpulan data bergaya Alpaca tetapi fokus pada topik keuangan |
Nama kumpulan data | Digunakan oleh | Jenis | Bahasa | Ukuran | Deskripsi️ |
---|---|---|---|---|---|
BagikanGPT4V | / | keterangan-cepat-gambar | Bahasa inggris | 1,2 juta instans | Kumpulan data teks multi-modal yang didukung GPT4-Vision. |
OBELIK | idefis seri | dokumen gambar | Bahasa inggris | 141 juta dokumen | kumpulan dokumen web teks-gambar yang disisipkan secara terbuka, masif, dan terkurasi. |
PerjalananDB | / | keterangan-cepat-gambar | Bahasa inggris | 4 juta instans | Kumpulan data berskala besar terdiri dari tugas QA, keterangan, dan petunjuk teks, yang didasarkan pada gambar Midjourney. |
M3IT | Ying-VLM | gambar instruksi | Multibahasa | 2,4 juta instans | Kumpulan data terdiri dari 40 tugas dengan 400 instruksi tertulis manusia. |
MIMIK-IT | Berang-berang | gambar instruksi | Multibahasa | 2,2 juta instans | Pasangan instruksi-respons multi-modal berkualitas tinggi berdasarkan gambar dan video. |
Instruksi LLaVA | LLaVA | gambar instruksi | Bahasa inggris | 158 ribu sampel | Kumpulan data multimodal yang dihasilkan berdasarkan kumpulan data COCO dengan meminta GPT-4 untuk mendapatkan instruksi. |
Nama kumpulan data | Digunakan oleh | Jenis | Bahasa | Ukuran | Deskripsi️ |
---|---|---|---|---|---|
WebTeks (tautan Reddit) | GPT-2 | PT | Bahasa inggris | / | Data dirayapi dari Reddit dan difilter untuk pra-pelatihan GPT-2. |
Teks Besar-besaran | Gopher, Chinchilla | PT | 99% Bahasa Inggris, 1% lainnya (termasuk kode) | ||
WuDao(悟道) Corpora | GLM | PT | Cina | 200GB | Korpus Tiongkok berskala besar, Komponen yang mungkin awalnya bersumber terbuka tetapi tidak tersedia sekarang. |