Ensembles de données d'alignement • Ensembles de données spécifiques au domaine • Ensembles de données de pré-entraînement ?️ Ensembles de données multimodaux
Les grands modèles de langage (LLM), tels que la série GPT d'OpenAI, Bard de Google et Wenxin Yiyan de Baidu, entraînent de profonds changements technologiques. Récemment, avec l'émergence de grands frameworks de modèles open source comme LlaMa et ChatGLM, la formation d'un LLM n'est plus le domaine exclusif des entreprises riches en ressources. La formation de LLM par de petites organisations ou des individus est devenue un intérêt important dans la communauté open source, avec quelques travaux notables notamment Alpaca, Vicuna et Luotuo. Outre les grands cadres de modèles, des corpus de formation à grande échelle et de haute qualité sont également essentiels pour la formation de grands modèles linguistiques. Actuellement, les corpus open source pertinents de la communauté sont encore dispersés. Par conséquent, l’objectif de ce référentiel est de collecter en permanence des corpus de formation de haute qualité pour les LLM de la communauté open source.
Former un LLM de chatbot capable de suivre efficacement les instructions humaines nécessite l'accès à des ensembles de données de haute qualité couvrant une gamme de domaines et de styles de conversation. Dans ce référentiel, nous fournissons une collection organisée d'ensembles de données spécialement conçus pour la formation des chatbots, y compris les liens, la taille, la langue, l'utilisation et une brève description de chaque ensemble de données. Notre objectif est de permettre aux chercheurs et aux praticiens d'identifier et de sélectionner plus facilement les ensembles de données les plus pertinents et les plus utiles pour leurs besoins de formation LLM sur les chatbots. Que vous cherchiez à améliorer la qualité du dialogue des chatbots, la génération de réponses ou la compréhension du langage, ce référentiel a quelque chose pour vous.
Si vous souhaitez contribuer, vous pouvez contacter :
Junhao Zhao ?
Conseillé par le professeur Wanyun Cui
Nom de l'ensemble de données | Utilisé par | Taper | Langue | Taille | Descriptif️ |
---|---|---|---|---|---|
aider à diriger | / | RLHF | Anglais | 37 000 instances | Un ensemble de données RLHF annoté par des humains avec des mesures d'utilité, d'exactitude, de cohérence, de complexité et de verbosité |
pas de robots | / | SFT | Anglais | 10 000 instances | Données STF créées par l'homme de haute qualité, un seul tour. |
Nom de l'ensemble de données | Utilisé par | Taper | Langue | Taille | Descriptif️ |
---|---|---|---|---|---|
Anthropique_ HH_Or | ULMA | SFT/RLHF | Anglais | train 42,5k + essai 2,3k | Amélioration de l'ensemble de données inoffensif des ensembles de données utiles et inoffensifs (HH) d'Anthropic. Utiliser GPT4 pour réécrire la réponse originale « choisie ». Par rapport à l'ensemble de données original Harmless, cet ensemble de données améliore empiriquement les performances des méthodes RLHF, DPO ou ULMA sur des métriques inoffensives. |
Nom de l'ensemble de données | Utilisé par | Taper | Langue | Taille | Descriptif️ |
---|---|---|---|---|---|
fonction_ appel_ étendu | / | Paires | Anglais code | / | Ensemble de données créé par l'homme de haute qualité pour améliorer la capacité d'utilisation de l'API de LM. |
Histoires américaines | / | TP | Anglais | / | Corpus de grande taille numérisé à partir de la Bibliothèque du Congrès des États-Unis. |
dolma | OLMo | TP | / | Jetons 3T | Un vaste corpus open source diversifié pour la pré-formation LM. |
Ornithorynque | Ornithorynque2 | Paires | Anglais | 25K | Un ensemble de données de très haute qualité pour améliorer la capacité de raisonnement STEM de LM. |
Macareux | Macareux moine de Redmond Série | Dialogue | Anglais | ~3 000 entrées | Un ensemble de données se compose de conversations entre de vrais humains et GPT-4, qui présentent un contexte long (plus de 1 000 jetons par conversation) et des dialogues à plusieurs tours. |
petite série | / | Paires | Anglais | / | Une série de codes ou de textes courts et concis visent à améliorer la capacité de raisonnement de LM. |
Banc long | / | Évaluation Seulement | Anglais Chinois | 17 tâches | Une référence pour évaluer la capacité de compréhension du contexte long de LLM. |
Nom de l'ensemble de données | Utilisé par | Taper | Langue | Taille | Descriptif️ |
---|---|---|---|---|---|
chat-orque | / | Dialogue | Anglais | 198 463 entrées | Un ensemble de données de dialogue de style Orca vise à améliorer la capacité de conversation en contexte long de LM. |
DialogueStudio | / | Dialogue | Multilingue | / | Une collection d'ensembles de données divers vise à créer un chatbot conversationnel. |
chatbot_arène _conversations | / | RLHF Dialogue | Multilingue | 33 000 conversations | Conversations nettoyées avec les préférences humaines par paires collectées sur Chatbot Arena. |
WebGLM-qa | WebGLm | Paires | Anglais | 43,6k entrées | Ensemble de données utilisé par WebGLM, qui est un système d'assurance qualité basé sur LLM et Internet. Chacune des entrées de cet ensemble de données comprend une question, une réponse et une référence. La réponse est fondée sur la référence. |
phi-1 | phi-1 | Dialogue | Anglais | / | Un ensemble de données généré à l’aide de la méthode décrite dans Textbooks Are All You Need. Il se concentre sur les problèmes de mathématiques et d'informatique. |
Linly- pré-formation- ensemble de données | Série Linly | TP | Chinois | 3,4 Go | L'ensemble de données de pré-entraînement chinois utilisé par le modèle de la série Linly comprend ClueCorpusSmall, CSL news-crawl, etc. |
À grains finsRLHF | / | RLHF | Anglais | ~5 000 exemples | Un dépôt vise à développer un nouveau cadre pour collecter les retours humains. Les données collectées ont pour but d'améliorer l'exactitude factuelle des LLM, la pertinence du sujet et d'autres capacités. |
dauphin | / | Paires | Anglais | 4,5 millions d'entrées | Une tentative de répliquer Orca de Microsoft. Basé sur FLANv2. |
chat ouvert_ sharegpt4_ ensemble de données | Chat ouvert | Dialogue | Anglais | 6 000 boîtes de dialogue | Un ensemble de données de haute qualité généré à l'aide de GPT-4 pour compléter les invites ShareGPT affinées. |
Nom de l'ensemble de données | Utilisé par | Taper | Langue | Taille | Descriptif️ |
---|---|---|---|---|---|
OuvrirOrca | / | Paires | Anglais | 4,5 millions de réalisations | Une collection de données FLAN augmentées. Généré en utilisant la méthode est du papier Orca. |
COIG-PC COIG-Lite | / | Paires | Chinois | / | Version améliorée de COIG. |
AssistantLM_Orca | série orca_mini | Paires | Anglais | 55 000 entrées | Données WizardLM améliorées. Généré en utilisant la méthode orca. |
arxiv instruit les ensembles de données mathématiques CS Physique | / | Paires | Anglais | 50K/ 50K/ 30 000 entrées | L'ensemble de données se compose de paires de questions-réponses dérivées de résumés ArXiv. Les questions sont générées à l'aide du modèle de base t5, tandis que les réponses sont générées à l'aide du modèle GPT-3.5-turbo. |
je-ressens- curieux | / | Paires | Anglais | 2595 entrées | Questions aléatoires et faits correspondants générés par Google Je ressens des fonctionnalités curieuses . |
ign_clean _instruire _dataset_500k | / | Paires | / | 509 000 entrées | Un ensemble de données SFT à grande échelle créé synthétiquement à partir d'un sous-ensemble d'invites Ultrachat. manque de datacard détaillée |
AssistantLM évoluer_instruct V2 | AssistantLM | Dialogue | Anglais | 196 000 entrées | La dernière version de l’ensemble de données Evolve Instruct. |
Dynasaure | / | Paires | Anglais | 800 000 entrées | L'ensemble de données généré en appliquant la méthode dans cet article. Highlight génère des données de haute qualité à faible coût. |
Pyjama Slim | / | TP | Principalement Anglais | / | Une version nettoyée et dédupliquée de RedPajama |
Ensemble de données LIMA | LIMA | Paires | Anglais | 1 000 entrées | Ensemble de données SFT de haute qualité utilisé par LIMA : moins c'est plus pour l'alignement |
Série TigerBot | Robot Tigre | TP Paires | Chinois Anglais | / | Ensembles de données utilisés pour entraîner le TigerBot, y compris les données de pré-entraînement, les données STF et certains ensembles de données spécifiques à un domaine comme les rapports de recherche financière. |
STI-v0 | / | Paires | Anglais | 30 000 exemples par tâche | Données de réglage des instructions multitâches refondues à partir de 475 ensembles de données de source de tâches. Semblable à l’ensemble de données Flan et à l’instruction naturelle. |
NMBVC | / | TP | Chinois | / | Un ensemble de données de pré-entraînement chinois à grande échelle et continuellement mis à jour. |
StackOverflow poste | / | TP | / | 35 Go | Données brutes StackOverflow au format markdown, pour le pré-entraînement. |
Nom de l'ensemble de données | Utilisé par | Taper | Langue | Taille | Descriptif️ |
---|---|---|---|---|---|
LaMini-Instruction | / | Paires | Anglais | 2,8 millions d'entrées | Un ensemble de données distillé à partir de la collecte de flan, du p3 et de l'auto-apprentissage. |
ultraChat | / | Dialogue | Anglais | 1,57 millions de dialogues | Un ensemble de données de dialogue à grande échelle créé à l'aide de deux ChatGPT, dont l'un agit en tant qu'utilisateur et l'autre génère une réponse. |
PartagerGPT_ Vicuna_non filtrée | Vigogne | Paires | Multilingue | 53 000 entrées | Ensemble de données ShareGPT nettoyé. |
pku-saferlhf-ensemble de données | Castor | RLHF | Anglais | 10K + 1M | Le premier ensemble de données de ce type contient 10 000 instances avec des préférences de sécurité. |
Ensemble de données RefGPT lien non officiel | RéfGPT | Paires, Dialogue | Chinois | ~ 50 000 entrées | Un ensemble de données de dialogue chinois vise à améliorer l'exactitude des faits dans les LLM (atténuer l'hallucination des LLM). |
Luotuo-QA-A CoQA-chinois | Projet Luotuo | Contexte | Chinois | 127 000 paires de contrôle qualité | Un ensemble de données construit sur CoQA traduit. Augmenté en utilisant l'API OpenAI. |
Wizard-LM-Chinois instruire-évoluer | Projet Luotuo | Paires | Chinois | ~70 000 entrées | Version chinoise WizardLM 70K. Les réponses sont obtenues par des questions traduites dans le flux dans l'API GPT d'OpenAI, puis obtiennent des réponses. |
alpaga_chinois ensemble de données | / | Paires | Chinois | / | Les données d'alpaga traduites en GPT-4 incluent des données complémentaires (comme la poésie chinoise, l'application, etc.). Inspecté par un humain. |
Zhihu-KOL | Ouvrir l'Assistant | Paires | Chinois | 1,5 Go | Données d'assurance qualité sur la célèbre plateforme chinoise d'assurance qualité Zhihu. |
Alpaga-GPT-4_zh-cn | / | Paires | Chinois | environ 50 000 entrées | Un ensemble de données de style alpaga chinois, généré par GPT-4 à l'origine en chinois, non traduit. |
hh-rlhf sur Huggingface | Koala | RLHF | Anglais | 161 000 paires 79,3 Mo | Un ensemble de données par paires pour la formation de modèles de récompense en apprentissage par renforcement afin d'améliorer l'innocuité et l'utilité des modèles de langage. |
Panther-dataset_v1 | Panthère | Paires | Anglais | 377 entrées | Un ensemble de données provient du hh-rlhf. Il réécrit hh-rlhf sous forme de paires entrée-sortie. |
Ensemble de données Baize | Tapis | Dialogue | Anglais | 100 000 dialogues | Un ensemble de données de dialogue généré par GPT-4 à l'aide de la conversation automatique. Les questions et les sujets sont collectés auprès de Quora, StackOverflow et de certaines sources de connaissances médicales. |
h2ogpt-fortune2000 personnalisé | h2ogpt | Paires | Anglais | 11363 entrées | Une instruction peaufinée développée par h2oai, couvrait divers sujets. |
HPS | StableVigogne, option de chat, , SteamSHP | RLHF | Anglais | 385 000 entrées | Un ensemble de données RLHF différent de ceux mentionnés précédemment, il utilise des scores + des horodatages pour déduire les préférences des utilisateurs. Couvre 18 domaines, collectés par Stanford. |
ELI5 | Série MiniLM | FT, RLHF | Anglais | 270 000 entrées | Questions et réponses collectées sur Reddit, y compris le score. Peut être utilisé pour la formation sur le modèle de récompense RLHF. |
AssistantLM evol_instruct V2 | AssistantLM | Paires | Anglais | Un ensemble de données de réglage fin des instructions dérivé d'Alpaca-52K, en utilisant la méthode d'évolution décrite dans cet article | |
Données MOSS SFT | MOUSSE | Les paires, Dialogue | chinois, anglais | 1,1 million d'entrées | Un ensemble de données conversationnelles collectées et développées par l'équipe MOSS. Il comporte des étiquettes d'utilité, de fidélité et d'innocuité pour chaque saisie de données. |
PartagerGPT52K | Koala, Stable LLM | Paires | Multilingue | 52K | Cet ensemble de données comprend des conversations collectées à partir de ShareGPT, avec un accent spécifique sur les conversations créatives personnalisées. |
Ensemble de données GPT-4all | GPT-4tous | Paires | Anglais, Peut-être une version traduite | 400 000 entrées | Une combinaison de certains sous-ensembles d'OIG, P3 et Stackoverflow. Couvre des sujets tels que l'assurance qualité générale et les questions créatives personnalisées. |
COIG | / | Paires | Chinois, code | 200 000 entrées | Un ensemble de données basé sur la Chine. Il contient des domaines tels que l'assurance qualité à usage général, les examens chinois et le code. Sa qualité est vérifiée par des annotateurs humains. |
RedPajama-Data-1T | RougePyjama | TP | Principalement anglais | Jetons 1,2T 5 To | Un ensemble de données de pré-entraînement entièrement ouvert suit la méthode LLaMA. |
OASST1 | Assistant Ouvert | Les paires, Dialogue | Multilingue (anglais, espagnol, etc.) | 66 497 arbres de conversation | Un vaste ensemble de données de conversation de haute qualité, écrites et annotées par des humains. Il vise à faire en sorte que le LLM génère une réponse plus naturelle. |
Alpaga-COT | Phénix | Les paires, Dialogue, CoT | Anglais | / | Un mélange de nombreux ensembles de données comme l'ensemble de données classique Alpaca, OIG, Guanaco et certains ensembles de données CoT (Chain-of-Thought) comme FLAN-CoT. Peut être pratique à utiliser. |
Bactriane-X | / | Paires | Multilingue (52 langues) | 67 000 entrées par langue | Une version multilingue d' Alpaca et Dolly-15K . |
databricks-dolly-15k zh-cn Ver | Chariot2.0 | Paires | Anglais | Plus de 15 000 entrées | Un ensemble de données d'invites et de réponses écrites par des humains , comprenant des tâches telles que la réponse à des questions en domaine ouvert, le brainstorming, la synthèse, etc. |
AlpacaDataNettoyé | Certains modèles de type Alpaca/LLaMA | Paires | Anglais | / | Version nettoyée d'Alpaca, GPT_LLM et GPTeacher. |
Ensemble de données GPT-4-LLM | Quelques modèles de type Alpaga | Les paires, RLHF | Anglais, Chinois | 52 000 entrées pour l'anglais et le chinois respectivement 9 000 entrées d'instructions non naturelles | PAS l'ensemble de données utilisé par GPT-4 !! Il est généré par GPT-4 et quelques autres LLM pour de meilleures paires et RLHF. Il comprend des données d'instruction ainsi que des données de comparaison dans le style RLHF. |
Enseignant GP | / | Paires | Anglais | 20 000 entrées | Un ensemble de données contient des cibles générées par GPT-4 et comprend bon nombre des mêmes tâches de départ que l'ensemble de données Alpaca, avec l'ajout de nouvelles tâches telles que le jeu de rôle. |
HC3 | Koala | RLHF | Anglais, Chinois | 24322 Anglais 12853 chinois | Un ensemble de données de comparaison multi-domaines humain/ChatGPT. Peut être utilisé pour la formation de modèles de récompense ou la formation de détecteur ChatGPT. |
Données sur l'alpaga Télécharger | Alpaga, ChatGLM-finetune-LoRA, Koala | Dialogue, Paires | Anglais | 52 000 entrées 21,4 Mo | Un ensemble de données généré par text-davinci-003 pour améliorer la capacité des modèles de langage à suivre les instructions humaines. |
BIG OIG-petite-puce2 | Pythie-Chat-Base-7B, GPT-NeoXT-Chat-Base-20B, Koala | Dialogue, Paires | Anglais, code | 44 millions d'entrées | Un vaste ensemble de données d'instructions conversationnelles avec des sous-ensembles de qualité moyenne et élevée (OIG-small-chip2) pour l'apprentissage multitâche. |
Données ChatAlpaca | / | Dialogue, Paires | Anglais, Version chinoise à venir | 10 000 entrées 39,5 Mo | Un ensemble de données vise à aider les chercheurs à développer des modèles de suivi des instructions dans les conversations à plusieurs tours. |
InstructionSauvage | ColossalChat | Paires | Anglais, Chinois | 10 000 entrées | Un ensemble de données de style Alpaga, mais avec des tâches de départ provient de la capture d'écran de chatgpt. |
Luciole (流萤) | Luciole (流萤) | Paires | Chinois | 1,1 million d'entrées 1,17 Go | Un ensemble de données de réglage des instructions chinoises avec 1,1 million d'exemples écrits par des humains sur 23 tâches, mais aucune conversation. |
BELLE Version 0,5M version 1M Version 2M | Série BELLE, Chunhua (春华) | Paires | Chinois | 2,67 milliards au total | Un ensemble de données d'instructions chinoises similaire aux données Alpaca construit en générant des réponses à partir de tâches de départ, mais pas de conversation. |
GuanacoEnsemble de données | Guanaco | Dialogue, Paires | Anglais, Chinois, japonais | 534 530 entrées | Un ensemble de données d'instructions multilingues pour améliorer les capacités des modèles linguistiques dans diverses tâches linguistiques, telles que la compréhension du langage naturel et la reconnaissance de contenu explicite. |
OpenAI WebGPT | Le modèle de récompense de WebGPT, Koala | RLHF | Anglais | 19 578 paires | Ensemble de données utilisé dans l'article WebGPT. Utilisé pour le modèle de récompense de formation dans RLHF. |
OpenAI Récapitulation Comparaison | Koala | RLHF | Anglais | ~93 000 entrées 420 Mo | Un ensemble de données de commentaires humains qui aident à former un modèle de récompense. Le modèle de récompense a ensuite été utilisé pour former un modèle de synthèse afin de l'aligner sur les préférences humaines. |
s'auto-instruire | / | Paires | Anglais | 82 000 entrées | L'ensemble de données généré à l'aide de la méthode d'auto-instruction bien connue |
instructions non naturelles | / | Paires | Anglais | 240 670 exemples | Une première tentative d'utilisation d'un modèle puissant (text-davinci-002) pour générer des données. |
xP3 (et quelques variantes) | BLOOMZ, mT0 | Paires | Multilingue, code | 79 millions d'entrées 88 Go | Un ensemble de données d'instructions pour améliorer la capacité de généralisation des modèles de langage, similaire à Natural Instruct . |
Flanc V2 | / | / | Anglais | / | Un ensemble de données compile des ensembles de données de Flan 2021, P3, Super-Natural Instructions, ainsi que des dizaines d'autres ensembles de données en un seul et les formate dans un mélange de modèles à tir zéro, à quelques tirs et de chaîne de pensée. |
Enseignement naturel GitHub et téléchargement | série d'instructions tk | Les paires, évaluation | Multilingue | / | Un benchmark avec plus de 1 600 tâches avec instruction et définition pour évaluer et améliorer la généralisation multitâche des modèles de langage dans le cadre de l'enseignement du langage naturel. |
CrossWOZ | / | Dialogue | Anglais, Chinois | Dialogues 6K | L'ensemble de données introduit par cet article, principalement sur le thème du tourisme à Pékin, les réponses sont générées automatiquement par des règles. |
Nous considérons les éléments de ligne comme sujet.
BIG | hh-rlhf | XP3 | instruction naturelle | AlpacaDataNettoyé | GPT-4-LLM | Alpaga-CoT | |
---|---|---|---|---|---|---|---|
BIG | / | contient | chevaucher | chevaucher | chevaucher | chevaucher | |
hh-rlhf | une partie de | / | chevaucher | ||||
XP3 | chevaucher | / | chevaucher | chevaucher | |||
instruction naturelle | chevaucher | chevaucher | / | chevaucher | |||
AlpacaDataNettoyé | chevaucher | / | chevaucher | chevaucher | |||
GPT-4-LLM | chevaucher | / | chevaucher | ||||
Alpaga-CoT | chevaucher | chevaucher | chevaucher | chevaucher | chevaucher | chevaucher | / |
Nom de l'ensemble de données | Utilisé par | Taper | Langue | Taille | Descriptif️ |
---|---|---|---|---|---|
pile d'épreuves | preuve-GPT | TP | Anglais Latex | 13 Go | Un ensemble de données de pré-entraînement similaire à la pile mais doté d'un corpus LaTeX pour améliorer la capacité de preuve de LM. |
peS2o | / | TP | Anglais | 7,5 Go | Un ensemble de données académiques de haute qualité pour la pré-formation. |
StackOverflow poste | / | TP | / | 35 Go | Données brutes StackOverflow au format markdown, pour le pré-entraînement. |
Pyjama Slim | / | TP | Principalement Anglais | / | Une version nettoyée et dédupliquée de RedPajama |
NMBVC | / | TP | Chinois | / | Un ensemble de données de pré-entraînement chinois à grande échelle et continuellement mis à jour. |
falcon-raffinéweb | série tiiuae/faucon | TP | Anglais | / | Un sous-ensemble raffiné de CommonCrawl. |
CBook-150K | / | TP, ensemble de données de construction | Chinois | Plus de 150 000 livres | Un ensemble de données brutes sur les livres chinois. Besoin d'un pipeline de prétraitement. |
Exploration commune | LLaMA (Après quelques processus) | construire des ensembles de données, TP | / | / | L'ensemble de données brutes le plus connu est rarement utilisé directement. Un pipeline de prétraitement possible est CCNet |
nlp_Chinese_Corpus | / | TP, TF | Chinois | / | Un corpus de pré-entraînement chinois. Comprend Wikipedia, Baidu Baike, Baidu QA, certains forums QA et un corpus d'actualités. |
La pile (V1) | GLM (en partie), LLaMA (en partie), GPT-J, GPT-NeoX-20B, Cerebras-GPT 6.7B, OPT-175b | TP | Multilingue, code | 825 Go | Un ensemble de données de modélisation de langage open source diversifié composé de 22 ensembles de données plus petits et de haute qualité qui incluent de nombreux domaines et tâches. |
C4 Ensemble de données Huggingface Ensemble de données TensorFlow | Série Google T5, LLaMA | TP | Anglais | 305 Go | Une version colossale et nettoyée du corpus d'exploration Web de Common Crawl. Fréquemment utilisé. |
RACINES | FLORAISON | TP | Multilingue, code | 1,6 To | Un ensemble de données open source diversifié composé de sous-ensembles de données tels que Wikipedia et StackExchange pour la modélisation du langage. |
PushshPairs reddit papier | OPT-175b | TP | / | / | Données brutes Reddit, un pipeline de traitement possible dans cet article |
Projet Gutenberg | Lama | TP | Multilingue | / | Un ensemble de données de livres, principalement des romans. Ne pas être prétraité. |
CLUECorpus | / | TP, affiner, évaluation | Chinois | 100 Go | Un corpus de pré-formation chinois provenant de Common Crawl . |
Nom de l'ensemble de données | Utilisé par | Taper | Langue | Taille | Descriptif️ |
---|---|---|---|---|---|
données du codeur stellaire | codeur stellaire série | TP | code | 783 Go | Un vaste ensemble de données de pré-entraînement pour améliorer la capacité de codage de LM. |
code_ instructions _120k_alpaga | / | Paires | Anglais/code | 121 959 entrées | code_instruction au format de réglage fin des instructions. |
fonction- invocations-25k | du MPT variantes | Paires | code anglais | 25 000 entrées | Un ensemble de données vise à enseigner aux modèles d’IA comment invoquer correctement les fonctions APIsGuru en fonction d’invites en langage naturel. |
ThéorèmeQA | / | Paires | Anglais | 800 | Un ensemble de données d'assurance qualité de la théorie STEM de haute qualité. |
phi-1 | phi-1 | Dialogue | Anglais | / | Un ensemble de données généré à l’aide de la méthode décrite dans Textbooks Are All You Need. Il se concentre sur les problèmes de mathématiques et d'informatique. |
FinNLP | FinGPT | Données brutes | Anglais, Chinois | / | Données textuelles financières brutes open source. Comprend les actualités, les médias sociaux, etc. |
PRM800K | Une variante de GPT-4 | Contexte | Anglais | 800 000 entrées | Un ensemble de données de supervision de processus pour des problèmes mathématiques |
Données MeChat | MeChat | Dialogue | Chinois | 355733 énoncés | Un ensemble de données SFT chinois pour former un chatbot de santé mentale. |
ChatGPT-Jailbreak-Invites | / | / | Anglais | Taille du fichier de 163 Ko | Invites à contourner la réglementation de sécurité de ChatGPT. Peut être utilisé pour sonder l’innocuité des LLM |
super chinois ressources juridiques | LoiWGPT | / | Chinois | / | Une collection de données juridiques chinoises pour la formation LLM. |
Forme longue | / | Paires | Anglais | 23,7K entrées | Un ensemble de données vise à améliorer la capacité de génération de texte long de LLM. |
réglage des instructions symboliques | / | Paires | Anglais, code | 796 | Un ensemble de données se concentre sur les tâches « symboliques » : comme le codage SQL, le calcul mathématique, etc. |
Invite de sécurité | / | Évaluation uniquement | Chinois | 100 000 entrées | La sécurité chinoise incite à évaluer et à améliorer la sécurité des LLM. |
Tapir-Nettoyé | / | Paires | Anglais, | 116 000 entrées | Il s'agit d'une version révisée de l'ensemble de données DAISLab des règles PairsTT, qui a été soigneusement nettoyée, notée et ajustée à des fins de réglage des instructions. |
pédagogique_ codesearchnet_python | / | Paires | Anglais & Python | 192 Mo | Cet ensemble de données est un ensemble de données Python pédagogique généré par un modèle généré à partir d'une version annotée de l'ensemble de données code-search-net pour le projet Open-Assistant. |
finance-alpaga | / | Paires | Anglais | 1,3K entrées | Un ensemble de données de style Alpaga mais axé sur des sujets financiers |
Nom de l'ensemble de données | Utilisé par | Taper | Langue | Taille | Descriptif️ |
---|---|---|---|---|---|
PartagerGPT4V | / | légende-invite-image | Anglais | 1,2 million d'instances | Un ensemble de données de sous-titres multimodaux alimentés par GPT4-Vision. |
OBÉLIQUES | idées série | document-image | Anglais | 141 millions de documents | une collection ouverte, massive et organisée de documents Web image-texte entrelacés. |
VoyageDB | / | légende-invite-image | Anglais | 4 millions d'instances | Un ensemble de données à grande échelle comprend des tâches d'assurance qualité, de légende et d'invite de texte, basées sur des images Midjourney. |
M3IT | Ying-VLM | image d'instruction | Multilingue | 2,4 millions d'instances | Un ensemble de données comprend 40 tâches avec 400 instructions écrites humaines. |
MIMIC-IT | Loutre | image d'instruction | Multilingue | 2,2 millions d'instances | Paires instructions-réponses multimodales de haute qualité basées sur des images et des vidéos. |
Instruction LLaVA | LLaVA | image d'instruction | Anglais | 158 000 échantillons | Un ensemble de données multimodal généré sur l'ensemble de données COCO en invitant GPT-4 à obtenir des instructions. |
Nom de l'ensemble de données | Utilisé par | Taper | Langue | Taille | Descriptif️ |
---|---|---|---|---|---|
WebText (liens Reddit) | GPT-2 | TP | Anglais | / | Données analysées à partir de Reddit et filtrées pour le pré-entraînement GPT-2. |
Texte Massif | Gopher, Chinchilla | TP | 99 % anglais, 1 % autre (code compris) | ||
Corpus WuDao(悟道) | GLM | TP | Chinois | 200 Go | Un corpus chinois à grande échelle, composant possible à l'origine open source mais non disponible actuellement. |