명령어 튜닝 데이터 세트
대규모 언어 모델의 명령어 조정에 사용 가능한 모든 데이터 세트
최적의 표준 데이터 세트
- P3: https://github.com/bigscience-workshop/promptsource, https://huggingface.co/datasets/bigscience/P3
- 다양한 NLP 작업을 다루는 프롬프트된 영어 데이터세트 컬렉션
- 270개 데이터 세트에 대한 2000가지 프롬프트 유형
- xP3: https://huggingface.co/datasets/bigscience/xP3mt
- 46개 언어로 된 13개 훈련 작업과 20개 언어로 된 프롬프트 혼합(영어에서 기계 번역됨)
- 자연 지침 v2: https://github.com/allenai/natural-instructions
- 76가지 고유한 작업 유형과 55가지 언어를 포괄하는 1,616개의 다양한 NLP 작업과 전문가가 작성한 지침에 대한 벤치마크입니다.
- 플랜 컬렉션: https://github.com/google-research/FLAN/tree/main/flan/v2
- 여기에 있는 일부 데이터 세트의 상위 집합
- 1,836개 작업, 1,500만 개 예시
- 오픈 어시스턴트: https://huggingface.co/datasets/OpenAssistant/oasst1
- 35개 언어로 66,497개의 대화 트리에 분산된 161,443개의 메시지로 구성된 사람이 주석을 추가한 보조자 스타일의 대화 코퍼스(461,292개의 품질 등급으로 주석 처리됨)
- LIMA: 1K 고품질 지침
- https://huggingface.co/datasets/GAIR/lima
- databricks-dolly-15k: https://github.com/databrickslabs/dolly/tree/master/data
- 프레스토: https://github.com/google-research-datasets/presto
- 인간과 가상 비서 간의 550K 상황별 다국어 대화
- BB3x: https://parl.ai/projects/bb3x/
- InstructCTG: https://github.com/MichaelZhouwang/InstructCTG
- 제어된 생성을 위한 프레임워크 https://arxiv.org/abs/2304.14293
- 크로스핏: https://github.com/INK-USC/CrossFit
- 작업 소스: https://arxiv.org/abs/2301.05948
- ExMix: https://arxiv.org/abs/2111.10952
- InstructEval: https://github.com/declare-lab/instruct-eval
- M3IT: https://huggingface.co/datasets/MMInstruction/M3IT
- https://arxiv.org/abs/2306.04387
- 40개 작업과 80개 언어에 걸친 240만 개의 다중 모드 인스턴스와 400개 지침
- MIMIC-IT: 다중 모드 상황별 명령어 튜닝: https://arxiv.org/abs/2306.05425
- 멀티인스트럭트: https://github.com/VT-NLP/MultiInstruct
- 콜리: https://github.com/princeton-nlp/Collie
- Mind2Web: 웹용 종합 에이전트를 향하여 https://osu-nlp-group.github.io/Mind2Web/
- Android in the Wild: Android 장치 제어를 위한 대규모 데이터 세트: https://github.com/google-research/google-research/tree/master/android_in_the_wild
- FLASK: 정렬 기술 세트를 기반으로 한 세분화된 언어 모델 평가 https://github.com/kaistAI/FLASK
- 안전-RLHF: https://arxiv.org/abs/2310.12773
- https://arxiv.org/pdf/2310.12773.pdf#https%3A//github.com/PKU-Alignment/safe-rlhf
- 헬프스티어: https://huggingface.co/datasets/nvidia/HelpSteer
실버 표준/LM을 사용하여 생성됨
- 자가 교육: https://github.com/yizhongw/self-instruct
- 부자연스러운 지침: https://github.com/orhonovich/unnatural-instructions
- 알파카: https://huggingface.co/datasets/tatsu-lab/alpaca
- 알파카 클린: https://github.com/gururise/AlpacaDataCleaned
- 코드 알파카: https://github.com/sahil280114/codealpaca
- AlpacaGPT3.5맞춤형: https://huggingface.co/datasets/whitefox44/AlpacaGPT3.5Customized
- GPT4All: https://github.com/nomic-ai/gpt4all
- GPT4All-pruned: https://huggingface.co/datasets/Nebulous/gpt4all_pruned
- ShareGPT: https://huggingface.co/datasets/RyokoAI/ShareGPT52K
- GPTeacher: https://github.com/teknium1/GPTeacher
- 낙타?: https://www.camel-ai.org/
- Human ChatGPT 비교 코퍼스: https://github.com/Hello-SimpleAI/chatgpt-comparison-Detection
- InstructionWild: https://github.com/XueFuzhao/InstructionWild
- GPT-4를 사용한 명령어 조정: https://github.com/Instruction-Tuning-with-GPT-4/GPT-4-LLM
- 구아나코: https://huggingface.co/datasets/JosephusCheung/GuanacoDataset
- LongForm 데이터세트: https://github.com/akoksal/LongForm/tree/main/dataset
- 다양한 코퍼스 샘플 세트에 대한 LLM 명령어 생성(27,739개 명령어 및 긴 텍스트 쌍)
- 울트라챗: https://huggingface.co/datasets/stingning/ultrachat
- LLaVA 시각적 지시 150K: https://huggingface.co/datasets/liuhaotian/LLaVA-Instruct-150K
- GPT에서 생성된 다중 모드 명령 따르기 데이터
- GPT4도구: https://github.com/StevenGrove/GPT4Tools
- 여러 다중 모드 모델에 대한 API 호출을 위한 명령 데이터
- LaMini 지침: https://huggingface.co/datasets/MBZUAI/LaMini-instruction
- Evol-Instruct 70k: https://github.com/nlpxucan/WizardLM
- 공룡: https://dynosaur-it.github.io/
- 알파카 농장: https://github.com/tatsu-lab/alpaca_farm
- https://huggingface.co/datasets/tatsu-lab/alpaca_farm
- ign_clean_instruct_dataset_500k: https://huggingface.co/datasets/ignmilton/ign_clean_instruct_dataset_500k
- 에어로보로스: https://github.com/jondurbin/airoboros
- 울트라피드백: https://huggingface.co/datasets/openbmb/UltraFeedback
- WildChat: 570,000개의 실제 사용자-ChatGPT 상호 작용 코퍼스 https://wildchat.allen.ai/
- 피드백 수집: https://arxiv.org/abs/2310.08491
- https://huggingface.co/datasets/kaist-ai/Feedback-Collection
선호도 데이터 세트(보상 모델을 훈련하는 데 사용할 수 있음)
- HH-RLHF: https://huggingface.co/datasets/Anthropic/hh-rlhf
- 모델 출력의 유해성과 유용성에 대한 사람의 평가가 포함되어 있습니다. 데이터세트에는 사람이 평가한 최대 160,000개의 예시가 포함되어 있으며, 이 데이터세트의 각 예시는 챗봇의 응답 쌍으로 구성되며, 그 중 하나는 사람이 선호합니다.
- OpenAI WebGPT: https://huggingface.co/datasets/openai/webgpt_comparisons
- 각 예가 질문, 모델 답변 쌍, 메타데이터로 구성된 총 약 20,000개의 비교를 포함합니다. 답변은 선호도 점수를 통해 인간에 의해 평가됩니다.
- OpenAI 요약: https://huggingface.co/datasets/openai/summarize_from_feedback
- ~93,000개의 예제가 포함되어 있으며, 각 예제는 모델에서 생성된 요약에 대한 인간의 피드백으로 구성됩니다. 인간 평가자는 두 가지 옵션 중에서 우수한 요약을 선택했습니다.
- 스탠포드 인간 선호도 데이터세트(SHP): https://huggingface.co/datasets/stanfordnlp/SHP
- 18개 주제 영역의 질문/지침에 대한 응답에 대한 385,000개의 집단적 인간 선호도
- 스택 교환 기본 설정: https://huggingface.co/datasets/HuggingFaceH4/stack-exchange-preferences
- SLF5K: https://huggingface.co/datasets/JeremyAlain/SLF5K
- qa-from-hf: https://github.com/lil-lab/qa-from-hf
- 넥타: https://huggingface.co/datasets/berkeley-nest/Nectar
- JudgeLM-100K: https://huggingface.co/datasets/BAAI/JudgeLM-100K
- 울트라피드백: https://huggingface.co/datasets/openbmb/UltraFeedback
기타
- OIG: https://huggingface.co/datasets/laion/OIG
- oa_leet10k: https://huggingface.co/datasets/ehartford/oa_leet10k
- 여러 프로그래밍 언어로 해결된 LeetCode 문제
- 프로소셜 대화상자: https://huggingface.co/datasets/allenai/prosocial-dialog
- ConvoKit: https://convokit.cornell.edu/documentation/datasets.html
- CoT-컬렉션: https://github.com/kaist-lklab/CoT-Collection
- DialogStudio: https://github.com/salesforce/DialogStudio
- 챗봇 아레나 대화 https://huggingface.co/datasets/lmsys/chatbot_arena_conversations
- lmsys 1M: https://huggingface.co/datasets/lmsys/lmsys-chat-1m
- 대화 연대기: https://conversation-chronicles.github.io/