정렬 데이터세트 • 도메인별 데이터세트 • 사전 훈련 데이터세트 ?️ 다중 모드 데이터세트
OpenAI의 GPT 시리즈, Google의 Bard, Baidu의 Wenxin Yiyan과 같은 대형 언어 모델(LLM)은 엄청난 기술 변화를 주도하고 있습니다. 최근 LlaMa 및 ChatGLM과 같은 오픈 소스 대규모 모델 프레임워크의 등장으로 LLM 교육은 더 이상 리소스가 풍부한 회사의 전유물이 아닙니다. 소규모 조직이나 개인에 의한 LLM 교육은 Alpaca, Vicuna 및 Luotuo를 포함한 몇 가지 주목할만한 작업과 함께 오픈 소스 커뮤니티에서 중요한 관심사가 되었습니다. 대규모 언어 모델을 훈련하려면 대규모 모델 프레임워크 외에도 대규모의 고품질 훈련 코퍼스도 필수적입니다. 현재 커뮤니티 내 관련 오픈소스 자료는 여전히 흩어져 있습니다. 따라서 이 저장소의 목표는 오픈 소스 커뮤니티에서 LLM을 위한 고품질 교육 자료를 지속적으로 수집하는 것입니다.
사람의 지시를 효과적으로 따를 수 있는 챗봇 LLM을 교육하려면 다양한 대화 영역과 스타일을 포괄하는 고품질 데이터 세트에 액세스해야 합니다. 이 리포지토리에서는 링크, 크기, 언어, 사용법 및 각 데이터 세트에 대한 간략한 설명을 포함하여 챗봇 훈련을 위해 특별히 설계된 선별된 데이터 세트 컬렉션을 제공합니다. 우리의 목표는 연구원과 실무자가 챗봇 LLM 교육 요구 사항에 가장 관련성이 높고 유용한 데이터 세트를 더 쉽게 식별하고 선택할 수 있도록 하는 것입니다. 챗봇 대화 품질, 응답 생성 또는 언어 이해를 개선하기 위해 작업하는 경우 이 저장소에 도움이 되는 내용이 있습니다.
기여하고 싶다면 다음 연락처로 연락하세요.
자오 준하오?
Wanyun Cui 교수의 조언
데이터세트 이름 | 사용처 | 유형 | 언어 | 크기 | 설명 ️ |
---|---|---|---|---|---|
helpSteer | / | RLHF | 영어 | 인스턴스 37,000개 | 유용성, 정확성, 일관성, 복잡성 및 자세한 측정값을 사람이 주석으로 추가한 RLHF 데이터 세트 |
no_robots | / | SFT | 영어 | 10,000개 인스턴스 | 인간이 생성한 고품질 STF 데이터, 단일 회전. |
데이터세트 이름 | 사용처 | 유형 | 언어 | 크기 | 설명 ️ |
---|---|---|---|---|---|
인류_ HH_골든 | 울마 | SFT / RLHF | 영어 | 기차 42.5k + 테스트 2.3k | Anthropic의 유용하고 무해한(HH) 데이터세트의 무해한 데이터세트가 개선되었습니다. GPT4를 사용하여 원래 "선택된" 답변을 다시 작성합니다. 원래의 Harmless 데이터세트와 비교하여 경험적으로 이 데이터세트는 무해한 측정항목에 대한 RLHF, DPO 또는 ULMA 방법의 성능을 크게 향상시킵니다. |
데이터 세트 이름 | 사용처 | 유형 | 언어 | 크기 | 설명 ️ |
---|---|---|---|---|---|
기능_ 부름_ 펼친 | / | 한 쌍 | 영어 암호 | / | LM의 API 사용 능력을 강화하여 인간이 만든 고품질 데이터세트입니다. |
아메리칸스토리 | / | PT | 영어 | / | 미국 의회 도서관에서 스캔한 방대한 크기의 말뭉치. |
돌마 | OLMo | PT | / | 3T 토큰 | LM 사전 학습을 위한 대규모의 다양한 오픈 소스 코퍼스입니다. |
오리너구리 | 오리너구리2 | 한 쌍 | 영어 | 25K | LM의 STEM 추론 능력을 향상시키기 위한 매우 높은 품질의 데이터 세트입니다. |
퍼핀 | 레드몬드 퍼핀 시리즈 | 대화 | 영어 | ~3,000개 항목 | 데이터 세트는 실제 인간과 GPT-4 간의 대화로 구성되며, 이는 긴 컨텍스트(대화당 1,000개 이상의 토큰)와 다중 턴 대화를 특징으로 합니다. |
작은 시리즈 | / | 한 쌍 | 영어 | / | 짧고 간결한 일련의 코드나 텍스트는 LM의 추론 능력 향상을 목표로 합니다. |
롱벤치 | / | 평가 오직 | 영어 중국인 | 17개 작업 | LLM의 장기 상황 이해 기능을 평가하기 위한 벤치마크입니다. |
데이터 세트 이름 | 사용처 | 유형 | 언어 | 크기 | 설명 ️ |
---|---|---|---|---|---|
오르카 채팅 | / | 대화 | 영어 | 항목 198,463개 | Orca 스타일 대화 데이터세트는 LM의 긴 상황별 대화 능력을 향상시키는 것을 목표로 합니다. |
DialogStudio | / | 대화 | 다국어 | / | 다양한 데이터 세트 모음은 대화형 Chatbot 구축을 목표로 합니다. |
chatbot_arena _대화 | / | RLHF 대화 | 다국어 | 33,000개의 대화 | Chatbot Arena에서 수집된 인간 선호도 쌍으로 대화를 정리했습니다. |
WebGLM-qa | WebGLm | 한 쌍 | 영어 | 43.6k 항목 | LLM과 인터넷 기반의 QA 시스템인 WebGLM에서 사용하는 데이터셋입니다. 이 데이터 세트의 각 항목은 질문, 응답 및 참조로 구성됩니다. 응답은 참조를 기반으로 합니다. |
파이-1 | 파이-1 | 대화 | 영어 | / | Textbooks Are All You Need의 방법을 사용하여 생성된 데이터 세트입니다. 수학 및 CS 문제에 중점을 둡니다. |
린리- 사전 훈련- 데이터세트 | 린리 시리즈 | PT | 중국인 | 3.4GB | Linly 시리즈 모델이 사용하는 중국어 사전 훈련 데이터 세트는 ClueCorpusSmall, CSL 뉴스 크롤링 등으로 구성됩니다. |
FineGrainedRLHF | / | RLHF | 영어 | ~5,000개 예시 | 저장소는 인간의 피드백을 수집하기 위한 새로운 프레임워크를 개발하는 것을 목표로 합니다. 수집된 데이터는 LLM의 사실적 정확성, 주제 관련성 및 기타 능력을 향상시키기 위한 목적으로 사용됩니다. |
돌고래 | / | 한 쌍 | 영어 | 450만 항목 | Microsoft의 Orca를 복제하려는 시도입니다. FLANv2를 기반으로 합니다. |
오픈채팅_ 공유gpt4_ 데이터세트 | 오픈챗 | 대화 | 영어 | 6,000개의 대화상자 | 세련된 ShareGPT 프롬프트를 완성하기 위해 GPT-4를 사용하여 생성된 고품질 데이터세트입니다. |
데이터세트 이름 | 사용처 | 유형 | 언어 | 크기 | 설명 ️ |
---|---|---|---|---|---|
오픈오르카 | / | 한 쌍 | 영어 | 450만 건 완료 | 증강된 FLAN 데이터 모음입니다. 방법을 이용하여 제작한 것이 오르카 종이입니다. |
COIG-PC COIG-라이트 | / | 한 쌍 | 중국인 | / | COIG의 향상된 버전입니다. |
WizardLM_Orca | orca_mini 시리즈 | 한 쌍 | 영어 | 항목 55,000개 | 향상된 WizardLM 데이터. orca의 방법을 사용하여 생성되었습니다. |
arxiv 지시 데이터 세트 수학 CS 물리학 | / | 한 쌍 | 영어 | 50K/ 50K/ 항목 30,000개 | 데이터 세트는 ArXiv 초록에서 파생된 질문-답변 쌍으로 구성됩니다. 질문은 t5 기반 모델을 사용하여 생성되고, 답변은 GPT-3.5-turbo 모델을 사용하여 생성됩니다. |
기분이- 궁금한 | / | 한 쌍 | 영어 | 항목 2595개 | 구글에서 생성되는 무작위 질문과 해당 사실에 대한 흥미로운 기능이 느껴지네요 . |
ign_clean _지시하다 _dataset_500k | / | 한 쌍 | / | 항목 509,000개 | Ultrachat 프롬프트의 하위 집합에서 종합적으로 생성된 대규모 SFT 데이터세트입니다. 상세한 데이터 카드가 부족함 |
WizardLM 진화_지시 V2 | WizardLM | 대화 | 영어 | 196,000개 항목 | Evolve Instruct 데이터세트의 최신 버전입니다. |
공룡 | / | 한 쌍 | 영어 | 800,000개의 항목 | 본 논문의 방법을 적용하여 생성된 데이터셋. 하이라이트는 저렴한 비용으로 고품질의 데이터를 생성합니다. |
슬림파자마 | / | PT | 주로 영어 | / | RedPajama의 정리 및 중복 제거 버전 |
LIMA 데이터 세트 | 리마 | 한 쌍 | 영어 | 항목 1,000개 | LIMA에서 사용하는 고품질 SFT 데이터세트: 정렬에는 적을수록 좋습니다 |
TigerBot 시리즈 | 타이거봇 | PT 한 쌍 | 중국인 영어 | / | 사전 훈련 데이터, STF 데이터 및 금융 연구 보고서와 같은 일부 도메인별 데이터 세트를 포함하여 TigerBot을 훈련하는 데 사용되는 데이터 세트입니다. |
TSI-v0 | / | 한 쌍 | 영어 | 30,000개의 예시 작업당 | 475개의 작업 소스 데이터 세트에서 재구성된 다중 작업 명령 조정 데이터입니다. Flan 데이터세트 및 Natural Instruction과 유사합니다. |
NMBVC | / | PT | 중국인 | / | 대규모의 지속적으로 업데이트되는 중국어 사전 학습 데이터세트입니다. |
스택오버플로우 우편 | / | PT | / | 35GB | 사전 학습을 위한 마크다운 형식의 원시 StackOverflow 데이터입니다. |
데이터세트 이름 | 사용처 | 유형 | 언어 | 크기 | 설명 ️ |
---|---|---|---|---|---|
LaMini 명령어 | / | 한 쌍 | 영어 | 280만 항목 | 계획 수집, p3 및 자가 교육에서 추출된 데이터세트입니다. |
울트라챗 | / | 대화 | 영어 | 157만 개의 대화상자 | 두 개의 ChatGPT를 사용하여 생성된 대규모 대화 데이터 세트(그 중 하나는 사용자 역할을 하고 다른 하나는 응답을 생성함) |
공유GPT_ 비쿠나_필터링되지 않음 | 비쿠나 | 한 쌍 | 다국어 | 항목 53,000개 | ShareGPT 데이터세트를 정리했습니다. |
pku-saferlhf-데이터세트 | 비버 | RLHF | 영어 | 10K + 1M | 해당 종류의 첫 번째 데이터 세트이며 안전 기본 설정이 포함된 10,000개의 인스턴스를 포함합니다. |
RefGPT-데이터세트 비공식 링크 | RefGPT | 쌍, 대화 | 중국인 | ~50,000개의 항목 | 중국어 대화 데이터 세트는 LLM에서 사실의 정확성을 향상시키는 것을 목표로 합니다(LLM의 환각 완화). |
Luotuo-QA-A CoQA-중국어 | 뤄퉈 프로젝트 | 문맥 | 중국인 | 127,000개 QA 쌍 | 번역된 CoQA를 기반으로 구축된 데이터 세트입니다. OpenAI API를 사용하여 강화되었습니다. |
마법사-LM-중국어 지시 진화 | 뤄퉈 프로젝트 | 한 쌍 | 중국인 | ~70,000개의 항목 | 중국어 버전 WizardLM 70K. OpenAI의 GPT API에서 피드 번역된 질문을 통해 답변을 얻은 후 응답을 받습니다. |
알파카_중국어 데이터세트 | / | 한 쌍 | 중국인 | / | GPT-4 번역된 알파카 데이터에는 일부 보완 데이터(예: 한시, 애플리케이션 등)가 포함되어 있습니다. 사람이 검사합니다. |
지후-KOL | 어시스턴트 열기 | 한 쌍 | 중국인 | 1.5GB | 잘 알려진 중국 Zhihu QA 플랫폼의 QA 데이터입니다. |
알파카-GPT-4_zh-cn | / | 한 쌍 | 중국인 | 약 50,000개의 항목 | 원래 중국어로 GPT-4에서 생성되었지만 번역되지 않은 중국 알파카 스타일 데이터세트입니다. |
hh-rlhf 허깅페이스에서 | 코알라 | RLHF | 영어 | 161,000쌍 79.3MB | 언어 모델의 무해성과 유용성을 개선하기 위해 강화 학습에서 보상 모델을 훈련하기 위한 쌍별 데이터세트입니다. |
Panther-dataset_v1 | 표범 | 한 쌍 | 영어 | 항목 377개 | 데이터세트는 hh-rlhf에서 나옵니다. hh-rlhf를 입력-출력 쌍의 형태로 다시 작성합니다. |
Baize 데이터세트 | 바이제 | 대화 | 영어 | 100,000개의 대화 | 자기 대화를 사용하여 GPT-4에서 생성된 대화 데이터 세트입니다. 질문과 주제는 Quora, StackOverflow 및 일부 의학 지식 소스에서 수집됩니다. |
h2ogpt-fortune2000 개인화된 | h2ogpt | 한 쌍 | 영어 | 항목 11363개 | h2oai가 개발한 지침 미세 조정으로 다양한 주제를 다루었습니다. |
SHP | 마구간비쿠나, 채팅 선택, , 스팀SHP | RLHF | 영어 | 항목 385,000개 | 이전에 언급한 것과 다른 RLHF 데이터세트는 점수+타임스탬프를 사용하여 사용자의 선호도를 추론합니다. 스탠포드에서 수집한 18개 도메인을 포함합니다. |
ELI5 | MiniLM 시리즈 | FT, RLHF | 영어 | 항목 270,000개 | 점수를 포함하여 Reddit에서 수집한 질문과 답변입니다. RLHF 보상 모델 교육에 사용될 수 있습니다. |
WizardLM evol_instruct V2 | WizardLM | 한 쌍 | 영어 | 본 논문의 진화 방법을 사용하여 Alpaca-52K에서 파생된 명령 미세 조정 데이터 세트 | |
모스 SFT 데이터 | 이끼 | 한 쌍, 대화 | 중국어, 영어 | 110만 항목 | MOSS 팀이 수집하고 개발한 대화형 데이터세트입니다. 모든 데이터 항목에 대한 유용성, 충성도 및 무해성 레이블이 있습니다. |
공유GPT52K | 코알라, 안정적인 LLM | 한 쌍 | 다국어 | 52K | 이 데이터 세트는 ShareGPT에서 수집한 대화로 구성되며 특히 맞춤형 창의적 대화에 중점을 둡니다. |
GPT-4all 데이터세트 | GPT-4all | 한 쌍 | 영어, 그럴 수도 있지 번역된 버전 | 400,000개의 항목 | OIG, P3 및 Stackoverflow의 일부 하위 집합의 조합입니다. 일반적인 QA, 맞춤형 크리에이티브 질문과 같은 주제를 다룹니다. |
코이그 | / | 한 쌍 | 중국인, 암호 | 항목 200,000개 | 중국어 기반 데이터세트입니다. 여기에는 범용 QA, 중국어 시험, 코드와 같은 도메인이 포함됩니다. 품질은 인간 주석자가 확인합니다. |
RedPajama-Data-1T | 빨강파자마 | PT | 주로 영어 | 1.2T 토큰 5TB | 완전 개방형 사전 훈련 데이터 세트는 LLaMA의 방법을 따릅니다. |
OASST1 | 오픈어시스턴트 | 한 쌍, 대화 | 다국어 (영어, 스페인어 등) | 66,497개의 대화나무 | 사람이 작성하고 사람이 주석을 추가한 대규모 고품질 대화 데이터세트입니다. LLM이 보다 자연스러운 반응을 생성하도록 하는 것이 목표입니다. |
알파카-COT | 피닉스 | 한 쌍, 대화, 간이 침대 | 영어 | / | 클래식 Alpaca 데이터 세트, OIG, Guanaco 및 FLAN-CoT와 같은 일부 CoT(Chain-of-Thought) 데이터 세트와 같은 많은 데이터 세트가 혼합되어 있습니다. 사용하기 편리할 수 있습니다. |
박트리아-X | / | 한 쌍 | 다국어 (52개 언어) | 언어당 항목 67,000개 | Alpaca 와 Dolly-15K 의 다국어 버전입니다. |
데이터브릭-돌리-15k zh-cn 버전 | 돌리2.0 | 한 쌍 | 영어 | 15,000개 이상의 항목 | 오픈 도메인 질문 답변, 브레인스토밍, 요약 등과 같은 작업을 특징으로 하는 사람이 작성한 프롬프트 및 응답의 데이터세트입니다. |
알파카데이터 정리됨 | 일부 Alpaca/LLaMA 유사 모델 | 한 쌍 | 영어 | / | Alpaca, GPT_LLM 및 GPTeacher의 정리된 버전입니다. |
GPT-4-LLM 데이터세트 | 일부 알파카와 유사한 모델 | 한 쌍, RLHF | 영어, 중국인 | 영어와 중국어 각각 52,000개의 항목 9K 항목 부자연스러운 지시 | GPT-4에서 사용하는 데이터세트가 아닙니다!! 더 나은 쌍 및 RLHF를 위해 GPT-4 및 기타 LLM에 의해 생성됩니다. 여기에는 명령 데이터와 RLHF 스타일의 비교 데이터가 포함됩니다. |
GP교사 | / | 한 쌍 | 영어 | 항목 20,000개 | 데이터 세트에는 GPT-4에서 생성된 대상이 포함되어 있으며 역할극과 같은 몇 가지 새로운 작업이 추가되어 Alpaca 데이터 세트와 동일한 시드 작업이 많이 포함되어 있습니다. |
HC3 | 코알라 | RLHF | 영어, 중국인 | 24322 영어 12853 중국어 | 다중 도메인, 인간 대 ChatGPT 비교 데이터세트입니다. 보상 모델 훈련 또는 ChatGPT 탐지기 훈련에 사용할 수 있습니다. |
알파카 데이터 다운로드 | 알파카, ChatGLM-finetune-LoRA, 코알라 | 대화, 한 쌍 | 영어 | 항목 52,000개 21.4MB | 인간의 지시를 따르는 언어 모델의 능력을 향상시키기 위해 text-davinci-003에서 생성된 데이터세트입니다. |
OIG OIG-소형 칩2 | Pythia-Chat-Base-7B, GPT-NeoXT-Chat-Base-20B, 코알라 | 대화, 한 쌍 | 영어, 암호 | 4,400만 항목 | 다중 작업 학습을 위한 중간 품질 및 고품질 하위 집합 (OIG-small-chip2) 을 갖춘 대규모 대화형 지침 데이터 세트입니다. |
ChatAlpaca 데이터 | / | 대화, 한 쌍 | 영어, 중국어 버전 곧 출시 예정 | 10,000개의 항목 39.5MB | 데이터 세트는 연구자가 여러 차례 대화에서 지시를 따르기 위한 모델을 개발하는 데 도움을 주는 것을 목표로 합니다. |
지시야생 | ColossalChat | 한 쌍 | 영어, 중국어 | 10K 엔레에 | Alpaca 스타일 데이터세트이지만 시드 작업이 포함된 chatgpt 스크린샷에서 가져옵니다. |
반딧불이(流萤) | 반딧불이(流萤) | 한 쌍 | 중국인 | 110만 항목 1.17GB | 23개 작업에 걸쳐 사람이 작성한 110만 개의 예제가 포함되어 있지만 대화는 없는 중국어 명령 조정 데이터 세트입니다. |
미인 0.5M 버전 1M 버전 2M 버전 | BELLE 시리즈, 춘화(春华) | 한 쌍 | 중국인 | 총 26억7천만개 | 시드 작업에서 답변을 생성하여 구성된 Alpaca 데이터 와 유사하지만 대화는 없는 중국어 명령 데이터 세트입니다. |
Guanaco데이터세트 | 과나코 | 대화, 한 쌍 | 영어, 중국인, 일본어 | 항목 534,530개 | 자연어 이해 및 명시적 콘텐츠 인식과 같은 다양한 언어 작업에서 언어 모델의 기능을 향상시키기 위한 다국어 명령 데이터세트입니다. |
오픈AI 웹GPT | WebGPT의 보상 모델, Koala | RLHF | 영어 | 19,578쌍 | WebGPT 문서에 사용되는 데이터 세트. RLHF의 보상 모델 훈련에 사용됩니다. |
오픈AI 요약 비교 | 코알라 | RLHF | 영어 | ~93,000개 항목 420MB | 보상 모델을 훈련하는 데 도움이 되는 인간 피드백 데이터세트입니다. 그런 다음 보상 모델을 사용하여 인간 선호도에 맞게 요약 모델을 훈련했습니다. |
스스로 지시하다 | / | 한 쌍 | 영어 | 82K 항목 | 잘 알려진 자가 지시 방법을 사용하여 생성된 데이터 세트 |
부자연스러운 지시 | / | 한 쌍 | 영어 | 예 240,670개 | 강력한 모델(text-davinci-002)을 사용하여 데이터를 생성하려는 초기 시도입니다. |
xP3(및 일부 변형) | 블룸즈, mT0 | 한 쌍 | 다국어, 암호 | 7900만 항목 88GB | Natural Instruct 와 유사한 언어 모델의 일반화 능력을 향상시키기 위한 명령어 데이터세트입니다. |
플랜 V2 | / | / | 영어 | / | 데이터 세트는 Flan 2021, P3, Super-Natural Instructions의 데이터 세트와 수십 개의 추가 데이터 세트를 하나로 컴파일하고 이를 제로샷, 퓨샷 및 사고 사슬 템플릿의 혼합으로 형식화합니다. |
자연스러운 수업 GitHub&다운로드 | tk-instruct 시리즈 | 한 쌍, 평가 | 다국어 | / | 자연어 교육에서 언어 모델의 다중 작업 일반화를 평가하고 개선하기 위한 교육 및 정의가 포함된 1,600개 이상의 작업이 포함된 벤치마크입니다. |
크로스WOZ | / | 대화 | 영어, 중국인 | 6K 대화 | 본 논문에서 소개한 데이터세트는 주로 베이징 관광 주제에 관한 것이며, 답변은 규칙에 따라 자동으로 생성됩니다. |
행 항목을 주제로 간주합니다.
OIG | hh-rlhf | xP3 | 자연스러운 지시 | 알파카데이터 정리됨 | GPT-4-LLM | 알파카-CoT | |
---|---|---|---|---|---|---|---|
OIG | / | 포함 | 겹치다 | 겹치다 | 겹치다 | 겹치다 | |
hh-rlhf | ~의 일부 | / | 겹치다 | ||||
xP3 | 겹치다 | / | 겹치다 | 겹치다 | |||
자연스러운 지시 | 겹치다 | 겹치다 | / | 겹치다 | |||
알파카데이터 정리됨 | 겹치다 | / | 겹치다 | 겹치다 | |||
GPT-4-LLM | 겹치다 | / | 겹치다 | ||||
알파카-CoT | 겹치다 | 겹치다 | 겹치다 | 겹치다 | 겹치다 | 겹치다 | / |
데이터 세트 이름 | 사용처 | 유형 | 언어 | 크기 | 설명 ️ |
---|---|---|---|---|---|
증거 더미 | 증거-GPT | PT | 영어 유액 | 13GB | Pile과 유사하지만 LaTeX 코퍼스가 있어 LM의 증명 능력을 향상시키는 사전 학습 데이터 세트입니다. |
peS2o | / | PT | 영어 | 7.5GB | 사전 학습을 위한 고품질 학술 논문 데이터세트입니다. |
스택오버플로우 우편 | / | PT | / | 35GB | 사전 학습을 위한 마크다운 형식의 원시 StackOverflow 데이터입니다. |
슬림파자마 | / | PT | 주로 영어 | / | RedPajama의 정리 및 중복 제거 버전 |
NMBVC | / | PT | 중국인 | / | 대규모의 지속적으로 업데이트되는 중국어 사전 학습 데이터세트입니다. |
팔콘 세련된 웹 | tiiuae/falcon 시리즈 | PT | 영어 | / | CommonCrawl의 개선된 하위 집합입니다. |
CBook-150K | / | 태평양 표준시, 데이터 세트 구축 | 중국인 | 15만 권 이상의 도서 | 원시 중국어 도서 데이터세트입니다. 전처리 파이프라인이 필요합니다. |
일반적인 크롤링 | LLaMA(일부 과정 후) | 데이터 세트 구축, PT | / | / | 가장 잘 알려진 원시 데이터세트로 직접 사용되는 경우는 거의 없습니다. 가능한 전처리 파이프라인 중 하나는 CCNet입니다. |
nlp_중국어_코퍼스 | / | 태평양 표준시, TF | 중국인 | / | 중국어 사전 훈련 코퍼스. Wikipedia, Baidu Baike, Baidu QA, 일부 포럼 QA 및 뉴스 코퍼스가 포함됩니다. |
더미 (V1) | GLM(부분), LLaMA(부분), GPT-J, GPT-NeoX-20B, Cerebras-GPT 6.7B, OPT-175b | PT | 다국어, 암호 | 825GB | 많은 도메인과 작업을 포함하는 22개의 더 작은 고품질 데이터 세트로 구성된 다양한 오픈 소스 언어 모델링 데이터 세트입니다. |
C4 포옹얼굴 데이터세트 TensorFlow 데이터세트 | 구글 T5 시리즈, LLaMA | PT | 영어 | 305GB | Common Crawl의 웹 크롤링 코퍼스의 거대하고 정리된 버전입니다. 자주 사용됩니다. |
뿌리 | 꽃 | PT | 다국어, 암호 | 1.6TB | 언어 모델링을 위한 Wikipedia 및 StackExchange와 같은 하위 데이터 세트로 구성된 다양한 오픈 소스 데이터 세트입니다. |
PushshPairs 레딧 종이 | OPT-175b | PT | / | / | 원시 Reddit 데이터, 이 문서에서 가능한 처리 파이프라인 중 하나 |
구텐베르크 프로젝트 | 야마 | PT | 다국어 | / | 책 데이터 세트(주로 소설)입니다. 전처리되지 않습니다. |
CLUECorpus | / | 태평양 표준시, 미세 조정, 평가 | 중국인 | 100GB | Common Crawl 에서 가져온 중국어 사전 훈련 코퍼스입니다. |
데이터세트 이름 | 사용처 | 유형 | 언어 | 크기 | 설명 ️ |
---|---|---|---|---|---|
스타코더데이터 | 스타코더 시리즈 | PT | 암호 | 783GB | LM의 코딩 능력 향상을 위한 대규모 사전 학습 데이터 세트입니다. |
암호_ 지침 _120k_알파카 | / | 한 쌍 | 영어/코드 | 항목 121,959개 | 명령어 미세 조정 형식의 code_instruction입니다. |
기능- 호출-25k | 일부 MPT 변형 | 한 쌍 | 영어 코드 | 항목 25,000개 | 데이터 세트는 자연어 프롬프트를 기반으로 APIsGuru 기능을 올바르게 호출하는 방법을 AI 모델에 가르치는 것을 목표로 합니다. |
정리QA | / | 한 쌍 | 영어 | 800 | 고품질 STEM 이론 QA 데이터세트입니다. |
파이-1 | 파이-1 | 대화 | 영어 | / | Textbooks Are All You Need의 방법을 사용하여 생성된 데이터 세트입니다. 수학 및 CS 문제에 중점을 둡니다. |
FinNLP | 핀GPT | 원시 데이터 | 영어, 중국인 | / | 오픈 소스 원시 금융 텍스트 데이터. 뉴스, 소셜 미디어 등이 포함됩니다. |
PRM800K | 다음의 변형 GPT-4 | 문맥 | 영어 | 800,000개의 항목 | 수학 문제에 대한 프로세스 감독 데이터 세트 |
메챗 데이터 | 미챗 | 대화 | 중국인 | 355733 발화 | 정신 건강 챗봇 훈련을 위한 중국 SFT 데이터 세트. |
ChatGPT-탈옥-프롬프트 | / | / | 영어 | 파일 크기 163KB | ChatGPT의 안전 규정을 우회하라는 메시지가 표시됩니다. LLM의 무해성을 조사하는 데 사용할 수 있습니다. |
굉장한 중국인 법적 자원 | 법WGPT | / | 중국인 | / | LLM 교육을 위한 중국 법률 데이터 모음입니다. |
긴 형식 | / | 한 쌍 | 영어 | 항목 23.7K개 | 데이터 세트는 LLM의 긴 텍스트 생성 능력을 향상시키는 것을 목표로 합니다. |
기호 명령 조정 | / | 한 쌍 | 영어, 암호 | 796 | 데이터 세트는 SQL 코딩, 수학적 계산 등과 같은 '기호적' 작업에 중점을 둡니다. |
안전 프롬프트 | / | 평가 전용 | 중국인 | 100,000개의 항목 | LLM의 안전성을 평가하고 개선하기 위한 중국의 안전 메시지입니다. |
테이퍼 청소 | / | 한 쌍 | 영어, | 116,000개 항목 | 이는 DAISLab 데이터세트의 pairsTT 규칙을 수정한 버전으로, 교육 조정을 위해 철저하게 정리, 채점 및 조정되었습니다. |
교육적 _ codesearchnet_python | / | 한 쌍 | 영어 & 파이썬 | 192MB | 이 데이터세트는 Open-Assistant 프로젝트에 대한 주석이 달린 버전의 code-search-net 데이터세트에서 생성된 템플릿 생성 교육용 Python 데이터세트입니다. |
금융알파카 | / | 한 쌍 | 영어 | 1.3K 항목 | Alpaca 스타일 데이터 세트이지만 금융 주제에 중점을 둡니다. |
데이터 세트 이름 | 사용처 | 유형 | 언어 | 크기 | 설명 ️ |
---|---|---|---|---|---|
공유GPT4V | / | 이미지 프롬프트 캡션 | 영어 | 120만 인스턴스 | GPT4-Vision 기반 다중 모드 캡션 데이터 세트입니다. |
오벨릭스 | 이데픽 시리즈 | 이미지 문서 | 영어 | 1억 4100만 개의 문서 | 인터리브된 이미지-텍스트 웹 문서의 개방형, 대규모, 엄선된 컬렉션입니다. |
JourneyDB | / | 이미지 프롬프트 캡션 | 영어 | 400만 개의 인스턴스 | 대규모 데이터 세트는 Midjourney 이미지를 기반으로 하는 QA, 캡션 및 텍스트 프롬프트 작업으로 구성됩니다. |
M3IT | 잉-VLM | 명령 이미지 | 다국어 | 240만 개의 인스턴스 | 데이터세트는 400개의 작업과 400개의 사람이 작성한 지침으로 구성됩니다. |
모방-IT | 수달 | 명령 이미지 | 다국어 | 220만 인스턴스 | 이미지와 비디오를 기반으로 한 고품질 다중 모드 지침-응답 쌍입니다. |
LLaVA 명령어 | LLaVA | 명령 이미지 | 영어 | 158,000개의 샘플 | GPT-4에 지침을 요청하여 COCO 데이터세트에 생성된 다중 모드 데이터세트입니다. |
데이터 세트 이름 | 사용처 | 유형 | 언어 | 크기 | 설명 ️ |
---|---|---|---|---|---|
웹텍스트(레딧 링크) | GPT-2 | PT | 영어 | / | Reddit에서 크롤링되고 GPT-2 사전 학습을 위해 필터링된 데이터입니다. |
대규모텍스트 | 고퍼, 친칠라 | PT | 99% 영어, 1% 기타(코드 포함) | ||
오도(悟道) Corpora | GLM | PT | 중국인 | 200GB | 대규모 중국어 말뭉치, 원래 오픈 소스로 제공되었지만 현재는 사용할 수 없는 구성 요소입니다. |