Ausrichtungsdatensätze • Domänenspezifische Datensätze • Vortrainingsdatensätze ?️ Multimodale Datensätze
Große Sprachmodelle (LLMs) wie die GPT-Reihe von OpenAI, Bard von Google und Wenxin Yiyan von Baidu treiben tiefgreifende technologische Veränderungen voran. Mit dem Aufkommen von Open-Source-Frameworks für große Modelle wie LlaMa und ChatGLM ist die Ausbildung eines LLM nicht mehr ausschließlich ressourcenreichen Unternehmen vorbehalten. Die Ausbildung von LLMs durch kleine Organisationen oder Einzelpersonen ist zu einem wichtigen Interesse in der Open-Source-Community geworden, mit einigen bemerkenswerten Werken wie Alpaca, Vicuna und Luotuo. Neben großen Modellrahmen sind auch umfangreiche und qualitativ hochwertige Trainingskorpora für das Training großer Sprachmodelle unerlässlich. Derzeit sind relevante Open-Source-Korpora in der Community noch verstreut. Ziel dieses Repositorys ist es daher, kontinuierlich hochwertige Trainingskorpora für LLMs in der Open-Source-Community zu sammeln.
Um einen Chatbot-LLM zu trainieren, der menschlichen Anweisungen effektiv folgen kann, ist der Zugriff auf hochwertige Datensätze erforderlich, die eine Reihe von Konversationsdomänen und -stilen abdecken. In diesem Repository stellen wir eine kuratierte Sammlung von Datensätzen bereit, die speziell für das Chatbot-Training entwickelt wurden, einschließlich Links, Größe, Sprache, Verwendung und einer kurzen Beschreibung jedes Datensatzes. Unser Ziel ist es, Forschern und Praktikern die Identifizierung und Auswahl der relevantesten und nützlichsten Datensätze für ihren Chatbot-LLM-Schulungsbedarf zu erleichtern. Ganz gleich, ob Sie an der Verbesserung der Chatbot-Dialogqualität, der Antwortgenerierung oder des Sprachverständnisses arbeiten, dieses Repository hat etwas für Sie.
Wenn Sie einen Beitrag leisten möchten, können Sie sich an folgende Adresse wenden:
Junhao Zhao?
Beraten von Prof. Wanyun Cui
Datensatzname | Verwendet von | Typ | Sprache | Größe | Beschreibung️ |
---|---|---|---|---|---|
helpSteer | / | RLHF | Englisch | 37.000 Instanzen | Ein RLHF-Datensatz, der von Menschen mit Hilfs-, Korrektheits-, Kohärenz-, Komplexitäts- und Ausführlichkeitsmaßen versehen wird |
no_robots | / | SFT | Englisch | 10k-Instanz | Hochwertige, von Menschen erstellte STF-Daten, Single-Turn. |
Datensatzname | Verwendet von | Typ | Sprache | Größe | Beschreibung️ |
---|---|---|---|---|---|
Anthropisch_ HH_Golden | ULMA | SFT / RLHF | Englisch | 42,5 km trainieren + 2,3 km testen | Der harmlose Datensatz der hilfreichen und harmlosen (HH) Datensätze von Anthropic wurde verbessert. Verwenden von GPT4, um die ursprünglich „gewählte“ Antwort neu zu schreiben. Verglichen mit dem ursprünglichen Harmless-Datensatz verbessert dieser Datensatz empirisch die Leistung von RLHF-, DPO- oder ULMA-Methoden bei harmlosen Metriken erheblich. |
Datensatzname | Verwendet von | Typ | Sprache | Größe | Beschreibung️ |
---|---|---|---|---|---|
Funktion_ Berufung_ erweitert | / | Paare | Englisch Code | / | Hochwertiger, von Menschen erstellter Datensatz zur Verbesserung der API-Nutzungsfähigkeit von LM. |
Amerikanische Geschichten | / | PT | Englisch | / | Riesiger Korpus, gescannt aus der US Library of Congress. |
Dolma | OLMo | PT | / | 3T-Token | Ein großes, vielfältiges Open-Source-Korpus für das LM-Vortraining. |
Schnabeltier | Schnabeltier2 | Paare | Englisch | 25K | Ein sehr hochwertiger Datensatz zur Verbesserung der MINT-Fähigkeiten von LM. |
Papageientaucher | Redmond-Puffin Serie | Dialog | Englisch | ~3.000 Einträge | Ein Datensatz besteht aus Gesprächen zwischen echten Menschen und GPT-4, die einen langen Kontext (über 1.000 Token pro Gespräch) und Dialoge mit mehreren Runden umfassen. |
winzige Serie | / | Paare | Englisch | / | Eine Reihe kurzer und prägnanter Codes oder Texte zielen darauf ab, die Denkfähigkeit von LM zu verbessern. |
LongBench | / | Auswertung Nur | Englisch chinesisch | 17 Aufgaben | Ein Maßstab zur Bewertung der langfristigen Kontextverständnisfähigkeit von LLM. |
Datensatzname | Verwendet von | Typ | Sprache | Größe | Beschreibung️ |
---|---|---|---|---|---|
Orca-Chat | / | Dialog | Englisch | 198.463 Einträge | Ein Dialogdatensatz im Orca-Stil zielt darauf ab, die Konversationsfähigkeit von LM im langen Kontext zu verbessern. |
DialogStudio | / | Dialog | Mehrsprachig | / | Eine Sammlung verschiedener Datensätze zielt darauf ab, einen Konversations-Chatbot zu erstellen. |
chatbot_arena _Gespräche | / | RLHF Dialog | Mehrsprachig | 33.000 Gespräche | Bereinigte Konversationen mit paarweisen menschlichen Präferenzen, die in der Chatbot Arena gesammelt wurden. |
WebGLM-qa | WebGLm | Paare | Englisch | 43,6.000 Einträge | Von WebGLM verwendeter Datensatz, einem QA-System, das auf LLM und Internet basiert. Jeder Eintrag in diesem Datensatz besteht aus einer Frage, einer Antwort und einer Referenz. Die Antwort basiert auf der Referenz. |
phi-1 | phi-1 | Dialog | Englisch | / | Ein Datensatz, der mit der Methode in Textbooks Are All You Need generiert wurde. Der Schwerpunkt liegt auf Mathematik- und Informatikproblemen. |
Linly- Vorschulung- Datensatz | Linly-Serie | PT | chinesisch | 3,4 GB | Der vom Linly-Serienmodell verwendete chinesische Pretraining-Datensatz umfasst ClueCorpusSmall, CSL News-Crawl usw. |
FeinkörnigesRLHF | / | RLHF | Englisch | ~5K Beispiele | Ein Repo zielt darauf ab, ein neues Framework zum Sammeln menschlicher Rückmeldungen zu entwickeln. Die gesammelten Daten dienen dazu, die sachliche Korrektheit, Themenrelevanz und andere Fähigkeiten des LLM zu verbessern. |
Delphin | / | Paare | Englisch | 4,5 Millionen Einträge | Ein Versuch, Microsofts Orca nachzubilden. Basierend auf FLANv2. |
openchat_ sharegpt4_ Datensatz | OpenChat | Dialog | Englisch | 6k Dialoge | Ein hochwertiger Datensatz, der mithilfe von GPT-4 generiert wurde, um verfeinerte ShareGPT-Eingabeaufforderungen zu vervollständigen. |
Datensatzname | Verwendet von | Typ | Sprache | Größe | Beschreibung️ |
---|---|---|---|---|---|
OpenOrca | / | Paare | Englisch | 4,5 Mio. Abschlüsse | Eine Sammlung erweiterter FLAN-Daten. Durch die Verwendung dieser Methode wird Orca-Papier erzeugt. |
COIG-PC COIG-Lite | / | Paare | chinesisch | / | Erweiterte Version von COIG. |
WizardLM_Orca | orca_mini-Serie | Paare | Englisch | 55.000 Einträge | Erweiterte WizardLM-Daten. Erstellt mit der Orca-Methode. |
arxiv-Anweisungsdatensätze Mathe CS Physik | / | Paare | Englisch | 50.000/ 50.000/ 30.000 Einträge | Der Datensatz besteht aus Frage-Antwort-Paaren, die aus ArXiv-Abstracts abgeleitet wurden. Fragen werden mit dem t5-Basismodell generiert, während die Antworten mit dem GPT-3.5-Turbo-Modell generiert werden. |
Ich-Gefühl- neugierig | / | Paare | Englisch | 2595 Einträge | Zufällige Fragen und entsprechende von Google generierte Fakten. Ich fühle mich neugierig . |
ign_clean _anweisen _dataset_500k | / | Paare | / | 509.000 Einträge | Ein umfangreicher SFT-Datensatz, der synthetisch aus einer Teilmenge von Ultrachat-Eingabeaufforderungen erstellt wird. Mangel an detaillierter Datenkarte |
WizardLM evolution_instruct V2 | WizardLM | Dialog | Englisch | 196.000 Einträge | Die neueste Version des Evolve Instruct-Datensatzes. |
Dynosaurier | / | Paare | Englisch | 800.000 Einträge | Der durch die Anwendung der Methode in diesem Artikel generierte Datensatz. Das Highlight ist die Generierung hochwertiger Daten zu geringen Kosten. |
Schlanker Pyjama | / | PT | In erster Linie Englisch | / | Eine bereinigte und deduplizierte Version von RedPajama |
LIMA-Datensatz | LIMA | Paare | Englisch | 1.000 Einträge | Hochwertiger SFT-Datensatz, der von LIMA verwendet wird: Weniger ist mehr für die Ausrichtung |
TigerBot-Serie | TigerBot | PT Paare | chinesisch Englisch | / | Datensätze, die zum Trainieren des TigerBot verwendet werden, einschließlich Pre-Training-Daten, STF-Daten und einige domänenspezifische Datensätze wie Finanzforschungsberichte. |
TSI-v0 | / | Paare | Englisch | 30.000 Beispiele pro Aufgabe | Eine Multi-Task-Anweisungsoptimierungsdaten, neu zusammengestellt aus 475 der Task-Source-Datensätze. Ähnlich dem Flan-Datensatz und der Natural-Anweisung. |
NMBVC | / | PT | chinesisch | / | Ein groß angelegter, kontinuierlich aktualisierter chinesischer Pretraining-Datensatz. |
StackOverflow Post | / | PT | / | 35 GB | Rohe StackOverflow-Daten im Markdown-Format für das Vortraining. |
Datensatzname | Verwendet von | Typ | Sprache | Größe | Beschreibung️ |
---|---|---|---|---|---|
LaMini-Anleitung | / | Paare | Englisch | 2,8 Millionen Einträge | Ein Datensatz, der aus der Flan-Sammlung, p3 und Selbstunterricht destilliert wurde. |
ultraChat | / | Dialog | Englisch | 1,57 Mio. Dialoge | Ein umfangreicher Dialogdatensatz, der mithilfe von zwei ChatGPTs erstellt wurde, von denen einer als Benutzer fungiert und ein anderer eine Antwort generiert. |
TeilenGPT_ Vicuna_unfiltered | Vicuna | Paare | Mehrsprachig | 53.000 Einträge | Bereinigter ShareGPT-Datensatz. |
pku-saferlhf-dataset | Biber | RLHF | Englisch | 10.000 + 1 Mio | Der erste Datensatz seiner Art und enthält 10.000 Instanzen mit Sicherheitspräferenzen. |
RefGPT-Datensatz inoffizieller Link | RefGPT | Paare, Dialog | chinesisch | ~50.000 Einträge | Ein chinesischer Dialogdatensatz zielt darauf ab, die Richtigkeit von Fakten in LLMs zu verbessern (die Halluzination von LLM zu mildern). |
Luotuo-QA-A CoQA-Chinesisch | Luotuo-Projekt | Kontext | chinesisch | 127.000 QA-Paare | Ein Datensatz, der auf übersetzter CoQA basiert. Erweitert durch die Verwendung der OpenAI-API. |
Wizard-LM-Chinesisch anweisen-evol | Luotuo-Projekt | Paare | chinesisch | ~70.000 Einträge | Chinesische Version WizardLM 70K. Antworten erhalten Sie, indem Sie übersetzte Fragen in die GPT-API von OpenAI einspeisen und dann Antworten erhalten. |
alpaka_chinesisch Datensatz | / | Paare | chinesisch | / | GPT-4-übersetzte Alpaka-Daten enthalten einige ergänzende Daten (z. B. chinesische Poesie, Anwendung usw.). Von Menschen geprüft. |
Zhihu-KOL | Öffnen Sie den Assistenten | Paare | chinesisch | 1,5 GB | QA-Daten auf der bekannten chinesischen Zhihu-QA-Plattform. |
Alpaka-GPT-4_zh-cn | / | Paare | chinesisch | ca. 50.000 Einträge | Ein von GPT-4 generierter Datensatz im chinesischen Alpaka-Stil, ursprünglich auf Chinesisch, nicht übersetzt. |
hh-rlhf auf Huggingface | Koala | RLHF | Englisch | 161.000 Paare 79,3 MB | Ein paarweiser Datensatz zum Trainieren von Belohnungsmodellen beim verstärkenden Lernen, um die Unbedenklichkeit und Hilfsbereitschaft von Sprachmodellen zu verbessern. |
Panther-dataset_v1 | Panther | Paare | Englisch | 377 Einträge | Ein Datensatz stammt vom hh-rlhf. Es schreibt hh-rlhf in die Form von Eingabe-Ausgabe-Paaren um. |
Baize-Datensatz | Fries | Dialog | Englisch | 100.000 Dialoge | Ein von GPT-4 mithilfe von Selbstgesprächen generierter Dialogdatensatz. Fragen und Themen werden von Quora, StackOverflow und einigen medizinischen Wissensquellen gesammelt. |
h2ogpt-fortune2000 personalisiert | h2ogpt | Paare | Englisch | 11363 Einträge | Eine von h2oai entwickelte Anleitung zur Feinabstimmung deckte verschiedene Themen ab. |
SHP | StabilVicuna, Chat-Opt, , SteamSHP | RLHF | Englisch | 385.000 Einträge | Es handelt sich um einen RLHF-Datensatz, der sich von den zuvor genannten unterscheidet und Scores und Zeitstempel verwendet, um auf die Präferenzen der Benutzer zu schließen. Umfasst 18 Domains, gesammelt von Stanford. |
ELI5 | MiniLM-Serie | FT, RLHF | Englisch | 270.000 Einträge | Von Reddit gesammelte Fragen und Antworten, einschließlich Punktzahl. Kann für das Training des RLHF-Belohnungsmodells verwendet werden. |
WizardLM evol_instruct V2 | WizardLM | Paare | Englisch | Ein von Alpaca-52K abgeleiteter Befehls-Feinabstimmungsdatensatz unter Verwendung der Evolutionsmethode in diesem Artikel | |
MOSS SFT-Daten | MOOS | Paare, Dialog | Chinesisch, Englisch | 1,1 Millionen Einträge | Ein vom MOSS-Team gesammelter und entwickelter Konversationsdatensatz. Es verfügt über Nützlichkeits-, Loyalitäts- und Unbedenklichkeitskennzeichnungen für jeden Dateneintrag. |
TeilenGPT52K | Koala, stabiles LLM | Paare | Mehrsprachig | 52K | Dieser Datensatz umfasst Konversationen, die von ShareGPT gesammelt wurden, mit besonderem Schwerpunkt auf maßgeschneiderten kreativen Konversationen. |
GPT-4all-Datensatz | GPT-4all | Paare | Englisch, Könnte sein eine übersetzte Version | 400.000 Einträge | Eine Kombination einiger Teilmengen von OIG, P3 und Stackoverflow. Behandelt Themen wie allgemeine Qualitätssicherung und individuelle kreative Fragen. |
COIG | / | Paare | Chinesisch, Code | 200.000 Einträge | Ein auf China basierender Datensatz. Es enthält Domänen wie allgemeine Qualitätssicherung, Chinesischprüfungen und Code. Seine Qualität wird von menschlichen Annotatoren überprüft. |
RedPyjama-Data-1T | Roter Pyjama | PT | Hauptsächlich Englisch | 1,2T-Token 5 TB | Ein vollständig offener Pretraining-Datensatz folgt der LLaMA-Methode. |
OASST1 | OpenAssistant | Paare, Dialog | Mehrsprachig (Englisch, Spanisch usw.) | 66.497 Konversationsbäume | Ein großer, von Menschen geschriebener, von Menschen kommentierter, qualitativ hochwertiger Konversationsdatensatz. Ziel ist es, dass LLM natürlichere Reaktionen hervorruft. |
Alpaka-Kinderbett | Phönix | Paare, Dialog, Kinderbett | Englisch | / | Eine Mischung aus vielen Datensätzen wie dem klassischen Alpaka-Datensatz, OIG, Guanaco und einigen CoT-Datensätzen (Chain-of-Thought) wie FLAN-CoT. Kann praktisch sein. |
Bactrian-X | / | Paare | Mehrsprachig (52 Sprachen) | 67.000 Einträge pro Sprache | Eine mehrsprachige Version von Alpaca und Dolly-15K . |
databricks-dolly-15k zh-cn Ver | Dolly2.0 | Paare | Englisch | Über 15.000 Einträge | Ein Datensatz mit von Menschen geschriebenen Eingabeaufforderungen und Antworten, der Aufgaben wie offene Fragebeantwortung, Brainstorming, Zusammenfassung und mehr umfasst. |
AlpacaDataCleaned | Einige Alpaka-/LLaMA-ähnliche Modelle | Paare | Englisch | / | Bereinigte Version von Alpaca, GPT_LLM und GPTeacher. |
GPT-4-LLM-Datensatz | Einige Alpaka-ähnliche Modelle | Paare, RLHF | Englisch, chinesisch | 52.000 Einträge für Englisch bzw. Chinesisch 9.000 Einträge unnatürlicher Unterricht | NICHT der von GPT-4 verwendete Datensatz!! Es wird von GPT-4 und einigen anderen LLM für bessere Paare und RLHF generiert. Es umfasst sowohl Befehlsdaten als auch Vergleichsdaten im RLHF-Stil. |
GPTeacher | / | Paare | Englisch | 20.000 Einträge | Ein Datensatz enthält von GPT-4 generierte Ziele und viele der gleichen Seed-Aufgaben wie der Alpaca-Datensatz, wobei einige neue Aufgaben wie Rollenspiele hinzugefügt wurden. |
HC3 | Koala | RLHF | Englisch, chinesisch | 24322 Englisch 12853 Chinesisch | Ein Multi-Domain-Vergleichsdatensatz zwischen Mensch und ChatGPT. Kann für das Belohnungsmodelltraining oder das ChatGPT-Detektortraining verwendet werden. |
Alpaka-Daten Herunterladen | Alpaka, ChatGLM-finetune-LoRA, Koala | Dialog, Paare | Englisch | 52.000 Einträge 21,4 MB | Ein von text-davinci-003 generierter Datensatz, um die Fähigkeit von Sprachmodellen zu verbessern, menschlichen Anweisungen zu folgen. |
OIG OIG-small-chip2 | Pythia-Chat-Base-7B, GPT-NeoXT-Chat-Base-20B, Koala | Dialog, Paare | Englisch, Code | 44 Millionen Einträge | Ein großer Konversationsanweisungsdatensatz mit Teilmengen mittlerer und hoher Qualität (OIG-small-chip2) für Multitasking-Lernen. |
ChatAlpaca-Daten | / | Dialog, Paare | Englisch, Chinesische Version kommt bald | 10.000 Einträge 39,5 MB | Ein Datensatz soll Forschern dabei helfen, Modelle für die Befolgung von Anweisungen in Gesprächen mit mehreren Runden zu entwickeln. |
AnleitungWild | ColossalChat | Paare | Englisch, Chinesisch | 10.000 Anmeldungen | Ein Datensatz im Alpaka-Stil, aber mit Seed-Aufgaben, stammt aus dem Chatgpt-Screenshot. |
Firefly (流萤) | Firefly (流萤) | Paare | chinesisch | 1,1 Millionen Einträge 1,17 GB | Ein chinesischer Datensatz zur Unterrichtsoptimierung mit 1,1 Millionen von Menschen geschriebenen Beispielen für 23 Aufgaben, aber ohne Konversation. |
BELLE 0,5M-Version 1M-Version 2M-Version | BELLE-Serie, Chunhua (春华) | Paare | chinesisch | Insgesamt 2,67 Milliarden | Ein Datensatz mit chinesischen Anweisungen, der den Alpaka-Daten ähnelt und durch die Generierung von Antworten aus Startaufgaben, aber ohne Konversation, erstellt wurde. |
GuanacoDataset | Guanako | Dialog, Paare | Englisch, Chinesisch, japanisch | 534.530 Einträge | Ein mehrsprachiger Befehlsdatensatz zur Verbesserung der Fähigkeiten von Sprachmodellen bei verschiedenen linguistischen Aufgaben, wie etwa dem Verstehen natürlicher Sprache und der expliziten Inhaltserkennung. |
OpenAI WebGPT | Das Belohnungsmodell von WebGPT, Koala | RLHF | Englisch | 19.578 Paare | Datensatz, der im WebGPT-Papier verwendet wird. Wird für das Trainingsbelohnungsmodell in RLHF verwendet. |
OpenAI Zusammenfassung Vergleich | Koala | RLHF | Englisch | ~93.000 Einträge 420 MB | Ein Datensatz mit menschlichem Feedback, der beim Training eines Belohnungsmodells hilft. Das Belohnungsmodell wurde dann verwendet, um ein Zusammenfassungsmodell zu trainieren, um es an menschlichen Vorlieben auszurichten. |
selbst unterrichten | / | Paare | Englisch | 82.000 Einträge | Der Datensatz wurde mithilfe der bekannten Selbstanweisungsmethode generiert |
unnatürliche Anweisungen | / | Paare | Englisch | 240.670 Beispiele | Ein früher Versuch, ein leistungsstarkes Modell (text-davinci-002) zum Generieren von Daten zu verwenden. |
xP3 (und einige Varianten) | BLOOMZ, mT0 | Paare | Mehrsprachig, Code | 79 Millionen Einträge 88 GB | Ein Befehlsdatensatz zur Verbesserung der Generalisierungsfähigkeit von Sprachmodellen, ähnlich wie Natural Instruct . |
Flan V2 | / | / | Englisch | / | Ein Datensatz fasst Datensätze aus Flan 2021, P3, Super-Natural Instructions sowie Dutzende weitere Datensätze zu einem zusammen und formatiert sie in einer Mischung aus Null-Schuss-, Wenig-Schuss- und Gedankenketten-Vorlagen |
Natürlicher Unterricht GitHub&Download | tk-instruct-Reihe | Paare, Auswertung | Mehrsprachig | / | Ein Benchmark mit über 1.600 Aufgaben mit Anleitung und Definition zur Bewertung und Verbesserung der Multitask-Verallgemeinerung von Sprachmodellen im Rahmen des Unterrichts in natürlicher Sprache. |
CrossWOZ | / | Dialog | Englisch, chinesisch | 6K-Dialoge | Für den in diesem Artikel vorgestellten Datensatz, der sich hauptsächlich mit Tourismusthemen in Peking befasst, werden die Antworten automatisch durch Regeln generiert. |
Wir betrachten Zeilenelemente als Betreff.
OIG | hh-rlhf | xP3 | natürlich unterrichten | AlpacaDataCleaned | GPT-4-LLM | Alpaka-CoT | |
---|---|---|---|---|---|---|---|
OIG | / | enthält | überlappen | überlappen | überlappen | überlappen | |
hh-rlhf | Teil von | / | überlappen | ||||
xP3 | überlappen | / | überlappen | überlappen | |||
natürlich unterrichten | überlappen | überlappen | / | überlappen | |||
AlpacaDataCleaned | überlappen | / | überlappen | überlappen | |||
GPT-4-LLM | überlappen | / | überlappen | ||||
Alpaka-CoT | überlappen | überlappen | überlappen | überlappen | überlappen | überlappen | / |
Datensatzname | Verwendet von | Typ | Sprache | Größe | Beschreibung️ |
---|---|---|---|---|---|
Beweisstapel | Beweis-GPT | PT | Englisch Latex | 13 GB | Ein vorab trainierter Datensatz, der dem Stapel ähnelt, jedoch über ein LaTeX-Korpus verfügt, um die Beweisfähigkeit von LM zu verbessern. |
peS2o | / | PT | Englisch | 7,5 GB | Ein hochwertiger Datensatz für wissenschaftliche Arbeiten zur Vorschulung. |
StackOverflow Post | / | PT | / | 35 GB | Rohe StackOverflow-Daten im Markdown-Format für das Vortraining. |
Schlanker Pyjama | / | PT | In erster Linie Englisch | / | Eine bereinigte und deduplizierte Version von RedPajama |
NMBVC | / | PT | chinesisch | / | Ein groß angelegter, kontinuierlich aktualisierter chinesischer Pretraining-Datensatz. |
Falcon-Refinedweb | tiiuae/falcon-Serie | PT | Englisch | / | Eine verfeinerte Teilmenge von CommonCrawl. |
CBook-150K | / | PT, Gebäudedatensatz | chinesisch | Über 150.000 Bücher | Ein Rohdatensatz für chinesische Bücher. Benötigen Sie eine Vorverarbeitungspipeline. |
Gemeinsames Kriechen | LLaMA (Nach einigem Prozess) | Gebäudedatensätze, PT | / | / | Der bekannteste Rohdatensatz wird selten direkt verwendet. Eine mögliche Vorverarbeitungspipeline ist CCNet |
nlp_Chinese_Corpus | / | PT, TF | chinesisch | / | Ein chinesischer Pretrain-Korpus. Beinhaltet Wikipedia, Baidu Baike, Baidu QA, einige Foren QA und News Corpus. |
Der Haufen (V1) | GLM (teilweise), LLaMA (teilweise), GPT-J, GPT-NeoX-20B, Cerebras-GPT 6.7B, OPT-175b | PT | Mehrsprachig, Code | 825 GB | Ein vielfältiger Open-Source-Sprachmodellierungsdatensatz, der aus 22 kleineren, qualitativ hochwertigen Datensätzen besteht und viele Domänen und Aufgaben umfasst. |
C4 Huggingface-Datensatz TensorFlow-Datensatz | Google T5-Serie, LLaMA | PT | Englisch | 305 GB | Eine kolossale, bereinigte Version des Web-Crawl-Korpus von Common Crawl. Häufig verwendet werden. |
WURZELN | BLÜHEN | PT | Mehrsprachig, Code | 1,6 TB | Ein vielfältiger Open-Source-Datensatz, der aus Unterdatensätzen wie Wikipedia und StackExchange für die Sprachmodellierung besteht. |
PushshPairs reddit Papier | OPT-175b | PT | / | / | Reddit-Rohdaten, eine mögliche Verarbeitungspipeline in diesem Artikel |
Gutenberg-Projekt | Lama | PT | Mehrsprachig | / | Ein Buchdatensatz, hauptsächlich Romane. Nicht vorverarbeitet werden. |
CLUECorpus | / | PT, Feinabstimmung, Auswertung | chinesisch | 100 GB | Ein chinesischer Pre-Training-Corpus, bezogen von Common Crawl . |
Datensatzname | Verwendet von | Typ | Sprache | Größe | Beschreibung️ |
---|---|---|---|---|---|
starcoderdata | Starcoder Serie | PT | Code | 783 GB | Ein großer Pre-Training-Datensatz zur Verbesserung der Codierungsfähigkeiten von LM. |
Code_ Anweisungen _120k_Alpaka | / | Paare | Englisch/Code | 121.959 Einträge | code_instruction im Anweisungs-Finetune-Format. |
Funktion- Aufrufe – 25.000 | etwas MPT Varianten | Paare | Englischer Code | 25.000 Einträge | Ziel eines Datensatzes ist es, KI-Modellen beizubringen, wie sie APIsGuru-Funktionen basierend auf Eingabeaufforderungen in natürlicher Sprache korrekt aufrufen. |
TheoremQA | / | Paare | Englisch | 800 | Ein qualitativ hochwertiger STEM-Theorm-QS-Datensatz. |
phi-1 | phi-1 | Dialog | Englisch | / | Ein Datensatz, der mit der Methode in Textbooks Are All You Need generiert wurde. Der Schwerpunkt liegt auf Mathematik- und Informatikproblemen. |
FinNLP | FinGPT | Rohdaten | Englisch, chinesisch | / | Open-Source-Rohdaten zu Finanztexten. Beinhaltet Nachrichten, soziale Medien usw. |
PRM800K | Eine Variante von GPT-4 | Kontext | Englisch | 800.000 Einträge | Ein Prozessüberwachungsdatensatz für mathematische Probleme |
MeChat-Daten | MeChat | Dialog | chinesisch | 355733 Äußerungen | Ein chinesischer SFT-Datensatz zum Trainieren eines Chatbots für psychische Gesundheit. |
ChatGPT-Jailbreak-Eingabeaufforderungen | / | / | Englisch | 163 KB Dateigröße | Fordert zur Umgehung der Sicherheitsbestimmungen von ChatGPT auf. Kann zur Untersuchung der Unbedenklichkeit von LLMs verwendet werden |
tolles Chinesisch rechtliche Ressourcen | GesetzGPT | / | chinesisch | / | Eine Sammlung chinesischer Rechtsdaten für die LLM-Ausbildung. |
Lange Form | / | Paare | Englisch | 23,7.000 Einträge | Ein Datensatz zielt darauf ab, die Langtextgenerierungsfähigkeit von LLM zu verbessern. |
Symbolische-Anweisung-Tuning | / | Paare | Englisch, Code | 796 | Ein Datensatz konzentriert sich auf die „symbolischen“ Aufgaben: wie SQL-Codierung, mathematische Berechnungen usw. |
Sicherheitsaufforderung | / | Nur Bewertung | chinesisch | 100.000 Einträge | Chinesische Sicherheitsaufforderungen zur Bewertung und Verbesserung der Sicherheit von LLMs. |
Tapir-gereinigt | / | Paare | Englisch, | 116.000 Einträge | Hierbei handelt es sich um eine überarbeitete Version des DAISLab-Datensatzes der PairsTT-Regeln, der zum Zwecke der Befehlsoptimierung gründlich bereinigt, bewertet und angepasst wurde |
lehrreich_ codesearchnet_python | / | Paare | Englisch & Python | 192 MB | Bei diesem Datensatz handelt es sich um einen von einer Vorlage generierten Python-Anleitungsdatensatz, der aus einer kommentierten Version des Code-Search-Net-Datensatzes für das Open-Assistant-Projekt generiert wurde. |
Finanzen-Alpaka | / | Paare | Englisch | 1,3K Einträge | Ein Datensatz im Alpaka-Stil, der sich jedoch auf Finanzthemen konzentriert |
Datensatzname | Verwendet von | Typ | Sprache | Größe | Beschreibung️ |
---|---|---|---|---|---|
TeilenGPT4V | / | Bildunterschrift | Englisch | 1,2 Millionen Instanzen | Ein Satz von GPT4-Vision-gestützten multimodalen Untertiteldaten. |
OBELIKE | Ideen Serie | Bilddokument | Englisch | 141 Millionen Dokumente | eine offene, umfangreiche und kuratierte Sammlung verschachtelter Bild-Text-Webdokumente. |
JourneyDB | / | Bildunterschrift | Englisch | 4 Millionen Instanzen | Ein umfangreicher Datensatz umfasst QA-, Bildunterschriften- und Textaufforderungsaufgaben, die auf Midjourney-Bildern basieren. |
M3IT | Ying-VLM | Anleitungsbild | Mehrsprachig | 2,4 Millionen Instanzen | Ein Datensatz umfasst 40 Aufgaben mit 400 menschlichen schriftlichen Anweisungen. |
MIMIC-IT | Otter | Anleitungsbild | Mehrsprachig | 2,2 Millionen Instanzen | Hochwertige multimodale Befehls-Antwort-Paare basierend auf Bildern und Videos. |
LLaVA-Unterricht | LLaVA | Anleitungsbild | Englisch | 158.000 Proben | Ein multimodaler Datensatz, der auf der Grundlage des COCO-Datensatzes generiert wird, indem GPT-4 aufgefordert wird, Anweisungen abzurufen. |
Datensatzname | Verwendet von | Typ | Sprache | Größe | Beschreibung️ |
---|---|---|---|---|---|
WebText (Reddit-Links) | GPT-2 | PT | Englisch | / | Von Reddit gecrawlte und nach GPT-2-Vortraining gefilterte Daten. |
MassiveText | Gopher, Chinchilla | PT | 99 % Englisch, 1 % Sonstiges (einschließlich Code) | ||
WuDao(悟道) Korpora | GLM | PT | chinesisch | 200 GB | Ein umfangreiches chinesisches Korpus. Mögliche Komponente ursprünglich Open-Source, aber derzeit nicht verfügbar. |