Kumpulan Data Penyetelan Instruksi
Semua kumpulan data yang tersedia untuk Penyetelan Instruksi Model Bahasa Besar
Kumpulan data standar emas
- P3: https://github.com/bigscience-workshop/promptsource, https://huggingface.co/datasets/bigscience/P3
- Kumpulan kumpulan data bahasa Inggris yang diminta yang mencakup beragam tugas NLP
- 2000 prompt mengetik lebih dari 270 kumpulan data
- xP3: https://huggingface.co/datasets/bigscience/xP3mt
- Campuran 13 tugas pelatihan dalam 46 bahasa dengan petunjuk dalam 20 bahasa (diterjemahkan mesin dari bahasa Inggris)
- Petunjuk Alami v2: https://github.com/allenai/natural-instructions
- Tolok ukur dari 1.616 tugas NLP yang beragam dan instruksi yang ditulis oleh ahlinya, mencakup 76 jenis tugas berbeda dan 55 bahasa berbeda.
- Koleksi Flan: https://github.com/google-research/FLAN/tree/main/flan/v2
- superset dari beberapa kumpulan data di sini
- Tugas 1836, 15m contoh
- Asisten Terbuka: https://huggingface.co/datasets/OpenAssistant/oasst1
- Korpus percakapan bergaya asisten dengan anotasi manusia yang terdiri dari 161.443 pesan yang didistribusikan di 66.497 pohon percakapan, dalam 35 bahasa berbeda, dianotasi dengan 461.292 rating kualitas
- LIMA: 1K instruksi berkualitas tinggi
- https://huggingface.co/datasets/GAIR/lima
- databricks-dolly-15k: https://github.com/databrickslabs/dolly/tree/master/data
- PRESTO: https://github.com/google-research-datasets/presto
- 550 ribu percakapan multibahasa kontekstual antara manusia dan asisten virtual
- BB3x: https://parl.ai/projects/bb3x/
- InstruksikanCTG: https://github.com/MichaelZhouwang/InstructCTG
- Kerangka kerja untuk pembangkitan terkontrol https://arxiv.org/abs/2304.14293
- CrossFit: https://github.com/INK-USC/CrossFit
- sumber tugas: https://arxiv.org/abs/2301.05948
- ExMix: https://arxiv.org/abs/2111.10952
- InstructEval: https://github.com/declare-lab/instruct-eval
- M3IT: https://huggingface.co/datasets/MMInstruction/M3IT
- https://arxiv.org/abs/2306.04387
- 2,4 juta instans multi-modal dan 400 instruksi dalam 40 tugas dan 80 bahasa
- MIMIC-IT: Penyetelan Instruksi Dalam Konteks Multi-Modal : https://arxiv.org/abs/2306.05425
- MultiInstruksi: https://github.com/VT-NLP/MultiInstruct
- COLLIE: https://github.com/princeton-nlp/Collie
- Mind2Web: Menuju Agen Generalis untuk Web https://osu-nlp-group.github.io/Mind2Web/
- Android in the Wild: Kumpulan Data Berskala Besar untuk Kontrol Perangkat Android: https://github.com/google-research/google-research/tree/master/android_in_the_wild
- FLASK: Evaluasi Model Bahasa Mendetail Berdasarkan Perangkat Keterampilan Penyelarasan https://github.com/kaistAI/FLASK
- Aman-RLHF: https://arxiv.org/abs/2310.12773
- https://arxiv.org/pdf/2310.12773.pdf#https%3A//github.com/PKU-Alignment/safe-rlhf
- HelpSteer: https://huggingface.co/datasets/nvidia/HelpSteer
Standar perak/Dihasilkan menggunakan LM
- Instruksi Mandiri: https://github.com/yizhongw/self-instruct
- Instruksi Tidak Wajar: https://github.com/orhonovich/unnatural-instructions
- Alpaka: https://huggingface.co/datasets/tatsu-lab/alpaca
- Pembersihan Alpaca: https://github.com/gururise/AlpacaDataCleaned
- Kode Alpaca: https://github.com/sahil280114/codealpaca
- AlpacaGPT3.5Disesuaikan: https://huggingface.co/datasets/whitefox44/AlpacaGPT3.5Disesuaikan
- GPT4All: https://github.com/nomic-ai/gpt4all
- GPT4Semua dipangkas: https://huggingface.co/datasets/Nebulous/gpt4all_pruned
- BagikanGPT: https://huggingface.co/datasets/RyokoAI/ShareGPT52K
- Guru GP: https://github.com/teknium1/GPTeacher
- UNTA?: https://www.camel-ai.org/
- Korpus Perbandingan ChatGPT Manusia: https://github.com/Hello-SimpleAI/chatgpt-comparison-detection
- InstruksiWild: https://github.com/XueFuzhao/InstructionWild
- Penyetelan Instruksi dengan GPT-4: https://github.com/Instruction-Tuning-with-GPT-4/GPT-4-LLM
- Guanaco: https://huggingface.co/datasets/JosephusCheung/GuanacoDataset
- Kumpulan Data Bentuk Panjang: https://github.com/akoksal/LongForm/tree/main/dataset
- Pembuatan instruksi LLM untuk beragam kumpulan sampel korpus (27.739 instruksi dan pasangan teks panjang)
- UltraChat: https://huggingface.co/datasets/stingning/ultrachat
- Instruksi Visual LLaVA 150K: https://huggingface.co/datasets/liuhaotian/LLaVA-Instruct-150K
- Data mengikuti instruksi multimodal yang dihasilkan GPT
- GPT4Tools: https://github.com/StevenGrove/GPT4Tools
- Data instruksi untuk melakukan panggilan API ke beberapa model multimodal
- Instruksi LaMini: https://huggingface.co/datasets/MBZUAI/LaMini-instruction
- 2,58 juta pasang instruksi dan tanggapan
- Evol-Instruksikan 70k: https://github.com/nlpxucan/WizardLM
- Dynosaur: https://dynosaur-it.github.io/
- Peternakan Alpaca: https://github.com/tatsu-lab/alpaca_farm
- https://huggingface.co/datasets/tatsu-lab/alpaca_farm
- ign_clean_instruct_dataset_500k: https://huggingface.co/datasets/ignmilton/ign_clean_instruct_dataset_500k
- airoboros: https://github.com/jondurbin/airoboros
- UltraFeedback: https://huggingface.co/datasets/openbmb/UltraFeedback
- WildChat: Kumpulan 570 ribu interaksi ChatGPT pengguna di dunia nyata https://wildchat.allen.ai/
- Koleksi Masukan: https://arxiv.org/abs/2310.08491
- https://huggingface.co/datasets/kaist-ai/Feedback-Collection
Kumpulan Data Preferensi (dapat digunakan untuk melatih model penghargaan)
- HH-RLHF: https://huggingface.co/datasets/Anthropic/hh-rlhf
- Berisi penilaian manusia mengenai bahaya dan kegunaan keluaran model. Kumpulan data berisi ~160 ribu contoh yang dinilai manusia, dengan setiap contoh dalam kumpulan data ini terdiri dari sepasang respons dari chatbot, yang salah satunya disukai oleh manusia.
- OpenAI WebGPT: https://huggingface.co/datasets/openai/webgpt_comparisons
- Mencakup total sekitar 20 ribu perbandingan yang setiap contohnya terdiri dari satu pertanyaan, sepasang jawaban model, dan metadata. Jawabannya dinilai oleh manusia dengan skor preferensi.
- Peringkasan OpenAI: https://huggingface.co/datasets/openai/summarize_from_feedback
- Berisi ~93 ribu contoh, setiap contoh terdiri dari umpan balik dari manusia mengenai ringkasan yang dihasilkan oleh suatu model. Evaluator manusia memilih ringkasan unggul dari dua pilihan.
- Kumpulan Data Preferensi Manusia Stanford (SHP): https://huggingface.co/datasets/stanfordnlp/SHP
- 385 ribu preferensi kolektif manusia atas respons terhadap pertanyaan/instruksi di 18 bidang studi berbeda
- Preferensi Pertukaran Tumpukan: https://huggingface.co/datasets/HuggingFaceH4/stack-exchange-preferences
- SLF5K: https://huggingface.co/datasets/JeremyAlain/SLF5K
- qa-from-hf: https://github.com/lil-lab/qa-from-hf
- Nektar: https://huggingface.co/datasets/berkeley-nest/Nectar
- HakimLM-100K: https://huggingface.co/datasets/BAAI/JudgeLM-100K
- UltraFeedback: https://huggingface.co/datasets/openbmb/UltraFeedback
Lain-lain
- OIG: https://huggingface.co/datasets/laion/OIG
- Superset dari beberapa kumpulan data di sini
- oa_leet10k: https://huggingface.co/datasets/ehartford/oa_leet10k
- Masalah LeetCode diselesaikan dalam berbagai bahasa pemrograman
- Dialog ProSosial: https://huggingface.co/datasets/allenai/prosocial-dialog
- ConvoKit: https://convokit.cornell.edu/documentation/datasets.html
- Koleksi CoT: https://github.com/kaist-lklab/CoT-Collection
- DialogStudio: https://github.com/salesforce/DialogStudio
- Percakapan Chatbot Arena https://huggingface.co/datasets/lmsys/chatbot_arena_conversations
- lmsys 1M: https://huggingface.co/datasets/lmsys/lmsys-chat-1m
- Kronik Percakapan: https://conversation-chronicles.github.io/