Unduh LLMDataHub - Unduh kode sumber LLMDataHub

LLMDataHub

Kode Sumber AI

1.0.0

Unduh

LLMDataHub: Kumpulan Data Luar Biasa untuk Pelatihan LLM

Kumpulan Data Penyelarasan • Kumpulan Data khusus domain • Kumpulan Data Pra-pelatihan ?️ Kumpulan Data Multimodal

Perkenalan ?

Model bahasa besar (LLM), seperti seri GPT OpenAI, Bard dari Google, dan Wenxin Yiyan dari Baidu, mendorong perubahan teknologi yang besar. Baru-baru ini, dengan munculnya kerangka model sumber terbuka yang besar seperti LlaMa dan ChatGLM, pelatihan LLM tidak lagi menjadi domain eksklusif perusahaan kaya sumber daya. Pelatihan LLM oleh organisasi kecil atau individu telah menjadi minat penting dalam komunitas sumber terbuka, dengan beberapa karya terkenal termasuk Alpaca, Vicuna, dan Luotuo. Selain kerangka model yang besar, korpora pelatihan berskala besar dan berkualitas tinggi juga penting untuk melatih model bahasa yang besar. Saat ini, korpora open source yang relevan di masyarakat masih tersebar. Oleh karena itu, tujuan dari repositori ini adalah untuk terus mengumpulkan korpora pelatihan berkualitas tinggi untuk LLM di komunitas sumber terbuka.

Melatih LLM chatbot yang dapat mengikuti instruksi manusia secara efektif memerlukan akses ke kumpulan data berkualitas tinggi yang mencakup berbagai domain dan gaya percakapan. Dalam repositori ini, kami menyediakan kumpulan kumpulan data kurasi yang dirancang khusus untuk pelatihan chatbot, termasuk tautan, ukuran, bahasa, penggunaan, dan deskripsi singkat setiap kumpulan data. Tujuan kami adalah memudahkan peneliti dan praktisi dalam mengidentifikasi dan memilih kumpulan data yang paling relevan dan berguna untuk kebutuhan pelatihan chatbot LLM mereka. Baik Anda berupaya meningkatkan kualitas dialog chatbot, menghasilkan respons, atau pemahaman bahasa, repositori ini memiliki sesuatu untuk Anda.

Kontak?

Jika Anda ingin berkontribusi, Anda dapat menghubungi:

Junhao Zhao?
Dibimbing oleh Prof. Wanyun Cui

Kumpulan Data Akses Terbuka Umum untuk Penyelarasan?:

Ketik Tag ?️:

SFT: Penyempurnaan yang Diawasi
- Dialog: Setiap entri berisi percakapan berkelanjutan
- Pasangan: Setiap entri adalah pasangan input-output
- Konteks: Setiap entri memiliki teks konteks dan pasangan QA terkait
PT: pra-latihan
CoT: Penyempurnaan Rantai Pemikiran
RLHF: melatih model penghargaan dalam Pembelajaran Penguatan dengan Umpan Balik Manusia

Kumpulan data dirilis pada November 2023

Nama kumpulan data	Digunakan oleh	Jenis	Bahasa	Ukuran	Deskripsi️
bantuanSteer	/	RLHF	Bahasa inggris	37k contoh	Kumpulan data RLHF yang dianotasi oleh manusia dengan ukuran kegunaan, kebenaran, koherensi, kompleksitas, dan verbositas
tidak_robot	/	SFT	Bahasa inggris	10 ribu contoh	Data STF buatan manusia berkualitas tinggi, satu putaran.

Kumpulan data dirilis pada September 2023

Nama kumpulan data	Digunakan oleh	Jenis	Bahasa	Ukuran	Deskripsi️
Antropis_ HH_Emas	ULMA	SFT / RLHF	Bahasa inggris	latih 42,5k + tes 2,3k	Peningkatan pada kumpulan data yang tidak berbahaya dari kumpulan data Helpful and Harmless (HH) Anthropic. Menggunakan GPT4 untuk menulis ulang jawaban asli yang "dipilih". Dibandingkan dengan kumpulan data Harmless asli, secara empiris kumpulan data ini meningkatkan performa metode RLHF, DPO, atau ULMA secara signifikan pada metrik tidak berbahaya.

Kumpulan data dirilis pada Agustus 2023

Nama kumpulan data	Digunakan oleh	Jenis	Bahasa	Ukuran	Deskripsi️
fungsi_ panggilan_ diperpanjang	/	berpasangan	Bahasa inggris kode	/	Kumpulan data buatan manusia berkualitas tinggi dari peningkatan kemampuan penggunaan API LM.
Cerita Amerika	/	PT	Bahasa inggris	/	Korpus berukuran besar dipindai dari Perpustakaan Kongres AS.
dolma	OLMo	PT	/	token 3T	Korpus sumber terbuka yang sangat beragam untuk pra-pelatihan LM.
Platipus	Platipus2	berpasangan	Bahasa inggris	25K	Kumpulan data berkualitas sangat tinggi untuk meningkatkan kemampuan penalaran STEM LM.
burung puffin	Redmond-Puffin Seri	Dialog	Bahasa inggris	~3k entri	Kumpulan data terdiri dari percakapan antara manusia nyata dan GPT-4, yang menampilkan konteks panjang (lebih dari 1 ribu token per percakapan) dan dialog multi-putaran.
seri kecil	/	berpasangan	Bahasa inggris	/	Serangkaian kode atau teks yang singkat dan ringkas bertujuan untuk meningkatkan kemampuan penalaran LM.
Bangku Panjang	/	Evaluasi Hanya	Bahasa inggris Cina	17 tugas	Tolok ukur untuk mengevaluasi kemampuan pemahaman konteks panjang LLM.

Kumpulan data dirilis pada Juli 2023

Nama kumpulan data	Digunakan oleh	Jenis	Bahasa	Ukuran	Deskripsi️
obrolan orca	/	Dialog	Bahasa inggris	198.463 entri	Kumpulan data dialog gaya Orca bertujuan untuk meningkatkan kemampuan percakapan konteks panjang LM.
DialogStudio	/	Dialog	Multibahasa	/	Kumpulan kumpulan data yang beragam bertujuan untuk membangun Chatbot percakapan.
chatbot_arena _percakapan	/	RLHF Dialog	Multibahasa	33k percakapan	Percakapan yang dibersihkan dengan preferensi manusia berpasangan dikumpulkan di Chatbot Arena.
WebGLM-qa	WebGLm	berpasangan	Bahasa inggris	43.6k entri	Dataset yang digunakan oleh WebGLM, yang merupakan sistem QA berbasis LLM dan Internet. Setiap entri dalam kumpulan data ini terdiri dari pertanyaan, tanggapan, dan referensi. Tanggapannya didasarkan pada referensi.
fi-1	fi-1	Dialog	Bahasa inggris	/	Kumpulan data yang dihasilkan dengan menggunakan metode dalam Buku Teks Yang Anda Butuhkan. Ini berfokus pada masalah matematika dan ilmu komputer.
Linly- pra-pelatihan- kumpulan data	Seri Linly	PT	Cina	3,4GB	Kumpulan data prapelatihan Tiongkok yang digunakan oleh model seri Linly, terdiri dari ClueCorpusSmall, perayapan berita CSL, dan lain-lain.
RLHF Berbutir Halus	/	RLHF	Bahasa inggris	~5K contoh	Repo bertujuan untuk mengembangkan kerangka kerja baru untuk mengumpulkan masukan manusia. Data yang dikumpulkan bertujuan untuk meningkatkan kebenaran faktual LLM, relevansi topik dan kemampuan lainnya.
lumba-lumba	/	berpasangan	Bahasa inggris	4,5 juta entri	Upaya untuk meniru Orca Microsoft. Berdasarkan FLANv2.
buka obrolan_ berbagigpt4_ kumpulan data	Obrolan Terbuka	Dialog	Bahasa inggris	dialog 6k	Kumpulan data berkualitas tinggi yang dihasilkan dengan menggunakan GPT-4 untuk menyelesaikan perintah ShareGPT yang disempurnakan.

Kumpulan data dirilis pada Juni 2023

Nama kumpulan data	Digunakan oleh	Jenis	Bahasa	Ukuran	Deskripsi️
BukaOrca	/	berpasangan	Bahasa inggris	penyelesaian 4,5 juta	Kumpulan data FLAN yang ditambah. Dihasilkan dengan menggunakan metode kertas Orca.
COIG-PC COIG-Lite	/	berpasangan	Cina	/	Versi COIG yang disempurnakan.
PenyihirLM_Orca	seri orca_mini	berpasangan	Bahasa inggris	55 ribu entri	Data WizardLM yang ditingkatkan. Dihasilkan dengan menggunakan metode orca.
arxiv menginstruksikan kumpulan data matematika CS Fisika	/	berpasangan	Bahasa inggris	50K/ 50K/ 30 ribu entri	dataset terdiri dari pasangan tanya jawab yang berasal dari abstrak ArXiv. Soal dihasilkan menggunakan model t5-base, sedangkan jawaban dihasilkan menggunakan model GPT-3.5-turbo.
aku-perasaan- penasaran	/	berpasangan	Bahasa inggris	2595 entri	Pertanyaan acak dan fakta terkait yang dihasilkan oleh Google Saya merasakan fitur penasaran .
ign_clean _menginstruksikan _kumpulan data_500k	/	berpasangan	/	509 ribu entri	Kumpulan data SFT berskala besar yang dibuat secara sintetis dari subkumpulan perintah Ultrachat. kurangnya datacard rinci
PenyihirLM berevolusi_instruksikan V2	PenyihirLM	Dialog	Bahasa inggris	196 ribu entri	Versi terbaru dari kumpulan data Evolve Instruct.
dinosaurus	/	berpasangan	Bahasa inggris	800 ribu entri	Dataset dihasilkan dengan menerapkan metode dalam makalah ini. Sorotannya adalah menghasilkan data berkualitas tinggi dengan biaya rendah.
Piyama Ramping	/	PT	Terutama Bahasa inggris	/	Versi RedPajama yang telah dibersihkan dan dihapus duplikatnya
Kumpulan data LIMA	LIMA	berpasangan	Bahasa inggris	1k entri	Kumpulan data SFT berkualitas tinggi yang digunakan oleh LIMA: Less Is More untuk Alignment
Seri TigerBot	Bot Harimau	PT berpasangan	Cina Bahasa inggris	/	Kumpulan data yang digunakan untuk melatih TigerBot, termasuk data prapelatihan, data STF, dan beberapa kumpulan data khusus domain seperti laporan penelitian keuangan.
TSI-v0	/	berpasangan	Bahasa inggris	30 ribu contoh per tugas	Data penyetelan instruksi multi-tugas disusun ulang dari 475 kumpulan data sumber tugas. Mirip dengan dataset Flan dan instruksi Natural.
NMBVC	/	PT	Cina	/	Skala besar, terus memperbarui kumpulan data pra-pelatihan Tiongkok.
StackOverflow pos	/	PT	/	35GB	Data StackOverflow mentah dalam format penurunan harga, untuk pra-pelatihan.

Kumpulan data dirilis sebelum Juni 2023

Nama kumpulan data	Digunakan oleh	Jenis	Bahasa	Ukuran	Deskripsi️
LaMini-Instruksi	/	berpasangan	Bahasa inggris	2,8 juta entri	Kumpulan data yang disaring dari koleksi flan, p3, dan instruksi mandiri.
ultraChat	/	Dialog	Bahasa inggris	1,57 juta dialog	Kumpulan data dialog berskala besar dibuat dengan menggunakan dua ChatGPT, salah satunya bertindak sebagai pengguna, yang lain menghasilkan respons.
BagikanGPT_ Vicuna_tidak difilter	Vicuna	berpasangan	Multibahasa	53 ribu entri	Kumpulan data ShareGPT yang dibersihkan.
kumpulan data pku-saferlhf	Berang-berang	RLHF	Bahasa inggris	10K + 1M	Kumpulan data pertama dari jenisnya dan berisi 10 ribu instans dengan preferensi keamanan.
RefGPT-Dataset tautan tidak resmi	RefGPT	Berpasangan, Dialog	Cina	~50 ribu entri	Kumpulan data dialog Tiongkok bertujuan untuk meningkatkan kebenaran fakta di LLM (mengurangi halusinasi LLM).
Luotuo-QA-A CoQA-Cina	Proyek Luotuo	Konteks	Cina	127 ribu pasangan QA	Kumpulan data yang dibangun berdasarkan CoQA yang diterjemahkan. Ditambah dengan menggunakan OpenAI API.
Penyihir-LM-Cina instruksikan-evolusi	Proyek Luotuo	berpasangan	Cina	~70 ribu entri	WizardLM 70K versi Cina. Jawaban diperoleh dengan feed pertanyaan yang diterjemahkan di API GPT OpenAI dan kemudian mendapatkan tanggapan.
alpaca_chinese kumpulan data	/	berpasangan	Cina	/	Data alpaka terjemahan GPT-4 mencakup beberapa data pelengkap (seperti puisi Tiongkok, aplikasi, dll.). Diperiksa oleh manusia.
Zhihu-KOL	Buka Asisten	berpasangan	Cina	1,5GB	Data QA pada platform Zhihu QA Tiongkok yang terkenal.
Alpaka-GPT-4_zh-cn	/	berpasangan	Cina	sekitar 50 ribu entri	Kumpulan data bergaya Alpaka Tiongkok, yang dihasilkan oleh GPT-4, aslinya dalam bahasa Tiongkok, tidak diterjemahkan.
hh-rlhf di Huggingface	Koala	RLHF	Bahasa inggris	161 ribu pasang 79,3MB	Kumpulan data berpasangan untuk melatih model penghargaan dalam pembelajaran penguatan guna meningkatkan sifat tidak berbahaya dan bermanfaat dari model bahasa.
Kumpulan data Panther_v1	Harimau kumbang	berpasangan	Bahasa inggris	377 entri	Kumpulan data berasal dari hh-rlhf. Ini menulis ulang hh-rlhf ke dalam bentuk pasangan input-output.
Kumpulan Data Baize	Kain tebal dr wol kasar	Dialog	Bahasa inggris	100 ribu dialog	Kumpulan data dialog yang dihasilkan oleh GPT-4 menggunakan self-talking. Pertanyaan dan topik dikumpulkan dari Quora, StackOverflow dan beberapa sumber pengetahuan medis.
h2ogpt-fortune2000 dipersonalisasi	h2ogpt	berpasangan	Bahasa inggris	11363 entri	Penyempurnaan instruksi yang dikembangkan oleh h2oai, mencakup berbagai topik.
kapal	StabilVicuna, pilihan obrolan, , SteamSHP	RLHF	Bahasa inggris	385 ribu entri	Kumpulan data RLHF berbeda dari yang disebutkan sebelumnya, kumpulan data ini menggunakan skor+cap waktu untuk menyimpulkan preferensi pengguna. Mencakup 18 domain, dikumpulkan oleh Stanford.
ELI5	Seri MiniLM	SEPERTI, RLHF	Bahasa inggris	270 ribu entri	Tanya Jawab dikumpulkan dari Reddit, termasuk skor. Mungkin digunakan untuk pelatihan model hadiah RLHF.
PenyihirLM evolusi_instruksi V2	PenyihirLM	berpasangan	Bahasa inggris		Kumpulan data penyempurnaan instruksi yang berasal dari Alpaca-52K, menggunakan metode evolusi dalam makalah ini
data MOSS SFT	LUMUT	berpasangan, Dialog	Cina, Inggris	1,1 juta entri	Kumpulan data percakapan dikumpulkan dan dikembangkan oleh tim MOSS. Ini memiliki label kegunaan, loyalitas dan tidak berbahaya untuk setiap entri data.
BagikanGPT52K	Koala, LLM Stabil	berpasangan	Multibahasa	52K	Kumpulan data ini terdiri dari percakapan yang dikumpulkan dari ShareGPT, dengan fokus khusus pada percakapan kreatif yang disesuaikan.
GPT-4semua Kumpulan Data	GPT-4semua	berpasangan	Bahasa inggris, Mungkin saja versi terjemahan	400 ribu entri	Kombinasi beberapa subset OIG, P3 dan Stackoverflow. Meliputi topik seperti QA umum, pertanyaan kreatif yang disesuaikan.
COIG	/	berpasangan	Cina, kode	200 ribu entri	Kumpulan data berbasis di Tiongkok. Ini berisi domain seperti QA tujuan umum, ujian bahasa Mandarin, kode. Kualitasnya diperiksa oleh anotator manusia.
RedPajama-Data-1T	Piyama Merah	PT	Terutama bahasa Inggris	1,2T token 5TB	Kumpulan data prapelatihan yang sepenuhnya terbuka mengikuti metode LLaMA.
OASST1	Asisten Terbuka	berpasangan, Dialog	Multibahasa (Inggris, Spanyol, dll.)	66.497 pohon percakapan	Kumpulan data percakapan berkualitas tinggi yang besar, ditulis oleh manusia, dan diberi anotasi manusia. Hal ini bertujuan agar LLM menghasilkan respon yang lebih natural.
Alpaca-COT	Phoenix	berpasangan, Dialog, Pondok	Bahasa inggris	/	Campuran dari banyak kumpulan data seperti kumpulan data Alpaca klasik, OIG, Guanaco, dan beberapa kumpulan data CoT (Chain-of-Thought) seperti FLAN-CoT. Mungkin berguna untuk digunakan.
Baktria-X	/	berpasangan	Multibahasa (52 bahasa)	67 ribu entri per bahasa	Versi multibahasa Alpaca dan Dolly-15K .
databricks-dolly-15k zh-cn Ver	Dolly2.0	berpasangan	Bahasa inggris	15K+ entri	Kumpulan data perintah dan tanggapan yang ditulis manusia , menampilkan tugas-tugas seperti menjawab pertanyaan domain terbuka, bertukar pikiran, meringkas, dan banyak lagi.
AlpacaDataDibersihkan	Beberapa model mirip Alpaca/LLaMA	berpasangan	Bahasa inggris	/	Versi Alpaca, GPT_LLM dan GPTeacher yang telah dibersihkan.
Kumpulan Data GPT-4-LLM	Beberapa model mirip Alpaca	berpasangan, RLHF	Bahasa inggris, Cina	52 ribu entri masing-masing untuk bahasa Inggris dan Cina Entri 9K instruksi yang tidak wajar	BUKAN kumpulan data yang digunakan oleh GPT-4!! Ini dihasilkan oleh GPT-4 dan beberapa LLM lainnya untuk Pasangan dan RLHF yang lebih baik. Ini mencakup data instruksi serta data perbandingan dalam gaya RLHF.
Guru GP	/	berpasangan	Bahasa inggris	20 ribu entri	Kumpulan data berisi target yang dihasilkan oleh GPT-4 dan mencakup banyak tugas awal yang sama dengan kumpulan data Alpaca, dengan tambahan beberapa tugas baru seperti permainan peran.
HC3	Koala	RLHF	Bahasa inggris, Cina	24322 Bahasa Inggris 12853 Cina	Kumpulan data perbandingan multi-domain, manusia-vs-ChatGPT. Dapat digunakan untuk pelatihan model hadiah atau pelatihan pendeteksi ChatGPT.
Data alpaka Unduh	Alpaca, ChatGLM-finetune-LoRA, Koala	Dialog, berpasangan	Bahasa inggris	52 ribu entri 21,4MB	Kumpulan data yang dihasilkan oleh text-davinci-003 untuk meningkatkan kemampuan model bahasa dalam mengikuti instruksi manusia.
OIG OIG-chip-kecil2	Pythia-Obrolan-Base-7B, GPT-NeoXT-Chat-Base-20B, Koala	Dialog, berpasangan	Bahasa inggris, kode	44 juta entri	Kumpulan data instruksi percakapan besar dengan subset kualitas sedang dan tinggi (OIG-small-chip2) untuk pembelajaran multi-tugas.
Data ObrolanAlpaca	/	Dialog, berpasangan	Bahasa inggris, Versi Cina segera hadir	10k entri 39,5MB	Kumpulan data bertujuan untuk membantu peneliti mengembangkan model untuk mengikuti instruksi dalam percakapan multi-putaran.
InstruksiLiar	Obrolan Kolosal	berpasangan	Inggris, Cina	10K enreue	Kumpulan data bergaya Alpaca, tetapi dengan tugas awal berasal dari tangkapan layar chatgpt.
Kunang-kunang (流萤)	Kunang-kunang (流萤)	berpasangan	Cina	1,1 juta entri 1,17GB	Kumpulan data penyesuaian instruksi berbahasa Mandarin dengan 1,1 juta contoh yang ditulis manusia dalam 23 tugas, tetapi tidak ada percakapan.
BELLE versi 0,5M versi 1M versi 2M	Seri BELLE, Chunhua (春华)	berpasangan	Cina	Totalnya 2,67 miliar	Kumpulan data instruksi berbahasa Mandarin yang mirip dengan data Alpaca dibuat dengan menghasilkan jawaban dari tugas awal, tetapi tidak ada percakapan.
Kumpulan Data Guanaco	guanaco	Dialog, berpasangan	Bahasa inggris, Cina, Jepang	534.530 entri	Kumpulan data instruksi multibahasa untuk meningkatkan kemampuan model bahasa dalam berbagai tugas linguistik, seperti pemahaman bahasa alami dan pengenalan konten eksplisit.
OpenAI WebGPT	Model penghargaan WebGPT, Koala	RLHF	Bahasa inggris	19.578 pasang	Kumpulan data yang digunakan dalam makalah WebGPT. Digunakan untuk melatih model penghargaan di RLHF.
OpenAI Peringkasan Perbandingan	Koala	RLHF	Bahasa inggris	~93 ribu entri 420MB	Kumpulan data umpan balik manusia yang membantu melatih model penghargaan. Model penghargaan kemudian digunakan untuk melatih model peringkasan agar selaras dengan preferensi manusia.
menginstruksikan diri sendiri	/	berpasangan	Bahasa inggris	82 ribu entri	Kumpulan data dihasilkan dengan menggunakan metode instruksi mandiri yang terkenal
instruksi yang tidak wajar	/	berpasangan	Bahasa inggris	240.670 contoh	Upaya awal untuk menggunakan model yang kuat (text-davinci-002) untuk menghasilkan data.
xP3 (dan beberapa varian)	BLOOMZ, mT0	berpasangan	Multibahasa, kode	79 juta entri 88GB	Kumpulan data instruksi untuk meningkatkan kemampuan generalisasi model bahasa, mirip dengan Natural Instruct .
flan v2	/	/	Bahasa inggris	/	Kumpulan data mengkompilasi kumpulan data dari Flan 2021, P3, Petunjuk Super-Natural, serta lusinan kumpulan data lainnya menjadi satu dan memformatnya menjadi campuran templat zero-shot, multiple-shot, dan rantai pemikiran
Instruksi Alami GitHub & Unduh	seri tk-instruct	berpasangan, evaluasi	Multibahasa	/	Tolok ukur dengan lebih dari 1.600 tugas dengan instruksi dan definisi untuk mengevaluasi dan meningkatkan generalisasi multitugas model bahasa dalam pengajaran bahasa alami.
LintasWOZ	/	Dialog	Bahasa inggris, Cina	Dialog 6K	Kumpulan data yang diperkenalkan oleh makalah ini, terutama tentang topik pariwisata di Beijing, jawabannya dihasilkan secara otomatis oleh aturan.

Potensi Tumpang Tindih ️

Kami menganggap item baris sebagai subjek.

	OIG	hh-rlhf	xP3	instruksi alami	AlpacaDataDibersihkan	GPT-4-LLM	Alpaka-CoT
OIG	/	berisi	tumpang tindih	tumpang tindih	tumpang tindih		tumpang tindih
hh-rlhf	bagian dari	/					tumpang tindih
xP3	tumpang tindih		/	tumpang tindih			tumpang tindih
instruksi alami	tumpang tindih		tumpang tindih	/			tumpang tindih
AlpacaDataDibersihkan	tumpang tindih				/	tumpang tindih	tumpang tindih
GPT-4-LLM					tumpang tindih	/	tumpang tindih
Alpaka-CoT	tumpang tindih	tumpang tindih	tumpang tindih	tumpang tindih	tumpang tindih	tumpang tindih	/

Buka Kumpulan Data untuk Pra-pelatihan?

Nama kumpulan data	Digunakan oleh	Jenis	Bahasa	Ukuran	Deskripsi️
tumpukan bukti	bukti-GPT	PT	Bahasa inggris Getah	13GB	Kumpulan data prapelatihan yang mirip dengan tumpukan tetapi memiliki korpus LaTeX untuk meningkatkan kemampuan pembuktian LM.
peS2o	/	PT	Bahasa inggris	7,5GB	Kumpulan data makalah akademis berkualitas tinggi untuk pra-pelatihan.
StackOverflow pos	/	PT	/	35GB	Data StackOverflow mentah dalam format penurunan harga, untuk pra-pelatihan.
Piyama Ramping	/	PT	Terutama Bahasa inggris	/	Versi RedPajama yang telah dibersihkan dan dihapus duplikatnya
NMBVC	/	PT	Cina	/	Skala besar, terus memperbarui kumpulan data pra-pelatihan Tiongkok.
web halus elang	seri tiiuae/elang	PT	Bahasa inggris	/	Subset yang disempurnakan dari CommonCrawl.
CBook-150K	/	PT, membangun kumpulan data	Cina	150K+ buku	Kumpulan data buku berbahasa Mandarin mentah. Perlu beberapa pipeline praproses.
Perayapan Umum	LLaMA (Setelah beberapa proses)	membangun kumpulan data, PT	/	/	Kumpulan data mentah paling terkenal, jarang digunakan secara langsung. Salah satu pipeline praproses yang mungkin adalah CCNet
nlp_Cina_Corpus	/	PT, TF	Cina	/	Korpus pra-latihan Tiongkok. Termasuk Wikipedia, Baidu Baike, Baidu QA, beberapa forum QA dan korpus berita.
Tumpukan (V1)	GLM (sebagian), LLaMA (sebagian), GPT-J, GPT-NeoX-20B, Cerebras-GPT 6.7B, OPT-175b	PT	Multibahasa, kode	825GB	Kumpulan data pemodelan bahasa sumber terbuka yang beragam yang terdiri dari 22 kumpulan data kecil dan berkualitas tinggi yang mencakup banyak domain dan tugas.
C4 Kumpulan data wajah berpelukan Kumpulan data TensorFlow	Seri Google T5, LLaMA	PT	Bahasa inggris	305GB	Versi korpus perayapan web Common Crawl yang sangat besar dan bersih. Sering digunakan.
AKAR	BUNGA	PT	Multibahasa, kode	1,6 TB	Kumpulan data sumber terbuka yang beragam yang terdiri dari sub-kumpulan data seperti Wikipedia dan StackExchange untuk pemodelan bahasa.
Reddit.PushshPairs kertas	MEMILIH-175b	PT	/	/	Data reddit mentah, salah satu kemungkinan jalur pemrosesan dalam makalah ini
Proyek Gutenberg	LLaMA	PT	Multibahasa	/	Kumpulan data buku, sebagian besar novel. Tidak diproses sebelumnya.
CLUECorpus	/	PT, menyempurnakan, evaluasi	Cina	100GB	Corpus pra-pelatihan Tiongkok yang bersumber dari Common Crawl .

Kumpulan Data Khusus Domain?

Nama kumpulan data	Digunakan oleh	Jenis	Bahasa	Ukuran	Deskripsi️
data starcoder	pembuat kode bintang seri	PT	kode	783GB	Kumpulan data prapelatihan yang besar untuk meningkatkan kemampuan coding LM.
kode_ instruksi _120rb_alpaca	/	berpasangan	Bahasa Inggris/kode	121.959 entri	code_instruction dalam format penyempurnaan instruksi.
fungsi- doa-25k	beberapa MPT varian	berpasangan	kode bahasa Inggris	25 ribu entri	Kumpulan data bertujuan untuk mengajarkan model AI cara menjalankan fungsi APIsGuru dengan benar berdasarkan perintah bahasa alami.
TeoremaQA	/	berpasangan	Bahasa inggris	800	Kumpulan data QA teori STEM berkualitas tinggi.
fi-1	fi-1	Dialog	Bahasa inggris	/	Kumpulan data yang dihasilkan dengan menggunakan metode dalam Buku Teks Yang Anda Butuhkan. Ini berfokus pada masalah matematika dan ilmu komputer.
FinNLP	FinGPT	Data mentah	Bahasa inggris, Cina	/	Data teks keuangan mentah sumber terbuka. Termasuk berita, media sosial, dan lain-lain.
PRM800K	Varian dari GPT-4	Konteks	Bahasa inggris	800 ribu entri	Kumpulan data pengawasan proses untuk masalah matematika
Data MeChat ️ gunakan dengan hati-hati	Obrolan Saya	Dialog	Cina	355733 ucapan	Kumpulan data SFT Tiongkok untuk melatih chatbot perawatan kesehatan mental.
ChatGPT-Jailbreak-Permintaan ️ BERISIKO	/	/	Bahasa inggris	Ukuran file 163KB	Anjuran untuk melewati peraturan keamanan ChatGPT. Dapat digunakan untuk menyelidiki tidak berbahayanya LLM
bahasa Cina yang luar biasa sumber daya hukum	HukumWGPT	/	Cina	/	Kumpulan data hukum Tiongkok untuk pelatihan LLM.
Bentuk Panjang	/	berpasangan	Bahasa inggris	23,7 ribu entri	Kumpulan data bertujuan untuk meningkatkan kemampuan pembuatan teks panjang LLM.
penyetelan instruksi simbolis	/	berpasangan	Bahasa inggris, kode	796	Kumpulan data berfokus pada tugas 'simbolis': seperti pengkodean SQL, perhitungan matematika, dll.
Perintah Keamanan	/	Evaluasi saja	Cina	100k entri	Keselamatan Tiongkok mendorong untuk mengevaluasi dan meningkatkan keamanan LLM.
Dibersihkan Tapir	/	berpasangan	Bahasa inggris,	116k entri	Ini adalah versi revisi dari kumpulan data DAISLab dari aturan PairsTT, yang telah dibersihkan, diberi skor, dan disesuaikan secara menyeluruh untuk tujuan penyesuaian instruksi
instruksional_ codesearchnet_python	/	berpasangan	Bahasa inggris & ular piton	192MB	Kumpulan data ini adalah kumpulan data instruksional Python yang dihasilkan templat yang dihasilkan dari versi kumpulan data code-search-net yang dianotasi untuk proyek Open-Assistant.
keuangan-alpaca	/	berpasangan	Bahasa inggris	1,3 ribu entri	Kumpulan data bergaya Alpaca tetapi fokus pada topik keuangan

Kumpulan Data Multimodal untuk VLM

Nama kumpulan data	Digunakan oleh	Jenis	Bahasa	Ukuran	Deskripsi️
BagikanGPT4V	/	keterangan-cepat-gambar	Bahasa inggris	1,2 juta instans	Kumpulan data teks multi-modal yang didukung GPT4-Vision.
OBELIK	idefis seri	dokumen gambar	Bahasa inggris	141 juta dokumen	kumpulan dokumen web teks-gambar yang disisipkan secara terbuka, masif, dan terkurasi.
PerjalananDB	/	keterangan-cepat-gambar	Bahasa inggris	4 juta instans	Kumpulan data berskala besar terdiri dari tugas QA, keterangan, dan petunjuk teks, yang didasarkan pada gambar Midjourney.
M3IT	Ying-VLM	gambar instruksi	Multibahasa	2,4 juta instans	Kumpulan data terdiri dari 40 tugas dengan 400 instruksi tertulis manusia.
MIMIK-IT	Berang-berang	gambar instruksi	Multibahasa	2,2 juta instans	Pasangan instruksi-respons multi-modal berkualitas tinggi berdasarkan gambar dan video.
Instruksi LLaVA	LLaVA	gambar instruksi	Bahasa inggris	158 ribu sampel	Kumpulan data multimodal yang dihasilkan berdasarkan kumpulan data COCO dengan meminta GPT-4 untuk mendapatkan instruksi.

Kumpulan Data Pribadi?

Nama kumpulan data	Digunakan oleh	Jenis	Bahasa	Ukuran	Deskripsi️
WebTeks (tautan Reddit)	GPT-2	PT	Bahasa inggris	/	Data dirayapi dari Reddit dan difilter untuk pra-pelatihan GPT-2.
Teks Besar-besaran	Gopher, Chinchilla	PT	99% Bahasa Inggris, 1% lainnya (termasuk kode)
WuDao(悟道) Corpora	GLM	PT	Cina	200GB	Korpus Tiongkok berskala besar, Komponen yang mungkin awalnya bersumber terbuka tetapi tidak tersedia sekarang.

Memperluas

Informasi Tambahan

Versi 1.0.0
Tipe Kode Sumber AI
Waktu Pembaruan 2024-12-15
ukuran 108.99KB
Berasal dari Github

Aplikasi Terkait

node telegram bot api

2024-12-14
typebot.io

2024-12-14
python wechaty getting started

2024-12-14
TranscriberBot

2024-12-14
genal chat

2024-12-14
Facemoji

2024-12-14

Direkomendasikan untuk Anda

chat.petals.dev

Kode sumber lainnya

1.0.0
GPT Prompt Templates

Kode sumber lainnya

1.0.0
GPTyped

Kode sumber lainnya

GPTyped 1.0.5
node telegram bot api

Kode Sumber AI

v0.50.0
typebot.io

Kode Sumber AI

v3.1.2
python wechaty getting started

Kode Sumber AI

1.0.0
waymo open dataset

Kode sumber lainnya

December 2023 Update
termwind

Kategori lainnya

v2.3.0
wp functions

Kategori lainnya

1.0.0

Informasi Terkait Semua