Наборы данных настройки инструкций
Все доступные наборы данных для настройки инструкций больших языковых моделей.
Наборы данных золотого стандарта
- P3: https://github.com/bigscience-workshop/promptsource, https://huggingface.co/datasets/bigscience/P3
- Сбор наборов данных на английском языке, охватывающих разнообразный набор задач НЛП.
- 2000 типов подсказок, более 270 наборов данных
- xP3: https://huggingface.co/datasets/bigscience/xP3mt
- Сочетание 13 учебных заданий на 46 языках с подсказками на 20 языках (машинный перевод с английского)
- Естественные инструкции v2: https://github.com/allenai/natural-instructions
- Эталон из 1616 разнообразных задач НЛП и инструкций, написанных экспертами, охватывающих 76 различных типов задач и на 55 разных языках.
- Коллекция фланов: https://github.com/google-research/FLAN/tree/main/flan/v2.
- расширенный набор некоторых наборов данных здесь
- 1836 задач, 15 млн примеров
- Открытый помощник: https://huggingface.co/datasets/OpenAssistant/oasst1
- Аннотированный человеком корпус разговоров в стиле помощника, состоящий из 161 443 сообщений, распределенных по 66 497 деревьям разговоров на 35 разных языках, с аннотациями с 461 292 оценками качества.
- ЛИМА: 1К качественных инструкций
- https://huggingface.co/datasets/GAIR/lima
- databricks-dolly-15k: https://github.com/databrickslabs/dolly/tree/master/data
- ПРЕСТО: https://github.com/google-research-datasets/presto
- 550 тысяч контекстных многоязычных разговоров между людьми и виртуальными помощниками
- BB3x: https://parl.ai/projects/bb3x/
- InstructCTG: https://github.com/MichaelZhouwang/InstructCTG
- Структура контролируемой генерации https://arxiv.org/abs/2304.14293
- Кроссфит: https://github.com/INK-USC/CrossFit
- источник задачи: https://arxiv.org/abs/2301.05948
- ЭксМикс: https://arxiv.org/abs/2111.10952
- InstructEval: https://github.com/declare-lab/instruct-eval
- M3IT: https://huggingface.co/datasets/MMInstruction/M3IT
- https://arxiv.org/abs/2306.04387
- 2,4 миллиона мультимодальных экземпляров и 400 инструкций для 40 задач и 80 языков.
- MIMIC-IT: настройка мультимодальных контекстных инструкций: https://arxiv.org/abs/2306.05425
- МультиИнструкт: https://github.com/VT-NLP/MultiInstruct.
- КОЛЛИ: https://github.com/princeton-nlp/Collie
- Mind2Web: на пути к универсальному агенту для Интернета https://osu-nlp-group.github.io/Mind2Web/
- Android в дикой природе: крупномасштабный набор данных для управления устройствами Android: https://github.com/google-research/google-research/tree/master/android_in_the_wild
- FLASK: детальная оценка языковой модели на основе набора навыков согласования https://github.com/kaistAI/FLASK
- Сейф-RLHF: https://arxiv.org/abs/2310.12773
- https://arxiv.org/pdf/2310.12773.pdf#https%3A//github.com/PKU-Alignment/safe-rlhf
- HelpSteer: https://huggingface.co/datasets/nvidia/HelpSteer
Серебряный стандарт/Сгенерировано с использованием LM
- Самостоятельное обучение: https://github.com/yizhongw/self-instruct.
- Неестественные инструкции: https://github.com/orhonovich/unnatural-instructions.
- Альпака: https://huggingface.co/datasets/tatsu-lab/alpaca
- Альпака-Clean: https://github.com/gururise/AlpacaDataCleaned
- Код Альпака: https://github.com/sahil280114/codealpaca
- AlpacaGPT3.5Настроенный: https://huggingface.co/datasets/whitefox44/AlpacaGPT3.5Настроенный
- GPT4All: https://github.com/nomic-ai/gpt4all
- GPT4All-обрезано: https://huggingface.co/datasets/Nebulous/gpt4all_pruned
- ShareGPT: https://huggingface.co/datasets/RyokoAI/ShareGPT52K
- GPTeacher: https://github.com/teknium1/GPTeacher.
- ВЕРБЛЮД?: https://www.camel-ai.org/
- Корпус сравнения Human ChatGPT: https://github.com/Hello-SimpleAI/chatgpt-comparison-detection
- ИнструкцияWild: https://github.com/XueFuzhao/InstructionWild
- Инструкция по настройке с помощью GPT-4: https://github.com/Instruction-Tuning-with-GPT-4/GPT-4-LLM.
- Гуанако: https://huggingface.co/datasets/JosephusCheung/GuanacoDataset
- Набор данных LongForm: https://github.com/akoksal/LongForm/tree/main/dataset.
- Генерация инструкций LLM для разнообразного набора выборок корпуса (27 739 инструкций и пар длинных текстов)
- УльтраЧат: https://huggingface.co/datasets/stingning/ultrachat
- Визуальная инструкция LLaVA 150 КБ: https://huggingface.co/datasets/liuhaotian/LLaVA-Instruct-150K
- Мультимодальные данные, следующие за инструкциями, сгенерированные GPT
- GPT4Tools: https://github.com/StevenGrove/GPT4Tools.
- Данные инструкций для выполнения вызовов API к нескольким мультимодальным моделям.
- Инструкция LaMini: https://huggingface.co/datasets/MBZUAI/LaMini-instruction
- 2,58 млн пар инструкций и ответов
- Evol-Instruct 70k: https://github.com/nlpxucan/WizardLM
- Динозавр: https://dynosaur-it.github.io/
- Ферма Альпака: https://github.com/tatsu-lab/alpaca_farm
- https://huggingface.co/datasets/tatsu-lab/alpaca_farm
- ign_clean_instruct_dataset_500k: https://huggingface.co/datasets/ignmilton/ign_clean_instruct_dataset_500k
- аэроборос: https://github.com/jondurbin/airoboros
- UltraFeedback: https://huggingface.co/datasets/openbmb/UltraFeedback
- WildChat: совокупность 570 тысяч реальных взаимодействий пользователей с ChatGPT https://wildchat.allen.ai/
- Сбор отзывов: https://arxiv.org/abs/2310.08491
- https://huggingface.co/datasets/kaist-ai/Feedback-Collection
Наборы данных предпочтений (можно использовать для обучения модели вознаграждения)
- HH-RLHF: https://huggingface.co/datasets/Anthropic/hh-rlhf
- Содержит человеческие оценки вредности и полезности результатов модели. Набор данных содержит около 160 тысяч примеров, оцененных людьми, причем каждый пример в этом наборе данных состоит из пары ответов от чат-бота, один из которых предпочитается людьми.
- OpenAI WebGPT: https://huggingface.co/datasets/openai/webgpt_comparisons
- Включает в общей сложности около 20 тысяч сравнений, где каждый пример включает вопрос, пару модельных ответов и метаданные. Ответы оцениваются людьми по шкале предпочтений.
- Подведение итогов OpenAI: https://huggingface.co/datasets/openai/summarize_from_feedback
- Содержит около 93 тыс. примеров, каждый пример состоит из отзывов людей относительно обобщений, созданных моделью. Оценщики-люди выбрали лучшее резюме из двух вариантов.
- Стэнфордский набор данных о человеческих предпочтениях (SHP): https://huggingface.co/datasets/stanfordnlp/SHP
- 385 тысяч коллективных предпочтений людей по ответам на вопросы/инструкции в 18 различных предметных областях
- Настройки обмена стеком: https://huggingface.co/datasets/HuggingFaceH4/stack-exchange-preferences
- SLF5K: https://huggingface.co/datasets/JeremyAlain/SLF5K
- qa-from-hf: https://github.com/lil-lab/qa-from-hf
- Нектар: https://huggingface.co/datasets/berkeley-nest/Nectar
- СудьяLM-100K: https://huggingface.co/datasets/BAAI/JudgeLM-100K
- UltraFeedback: https://huggingface.co/datasets/openbmb/UltraFeedback
Разное
- OIG: https://huggingface.co/datasets/laion/OIG
- Расширенный набор некоторых наборов данных здесь
- oa_leet10k: https://huggingface.co/datasets/ehartford/oa_leet10k
- Проблемы LeetCode, решенные на нескольких языках программирования
- ProSocial Dialog: https://huggingface.co/datasets/allenai/prosocial-dialog
- ConvoKit: https://convokit.cornell.edu/documentation/datasets.html.
- Коллекция CoT: https://github.com/kaist-lklab/CoT-Collection
- DialogStudio: https://github.com/salesforce/DialogStudio.
- Разговоры на арене чат-ботов https://huggingface.co/datasets/lmsys/chatbot_arena_conversations
- lmsys 1M: https://huggingface.co/datasets/lmsys/lmsys-chat-1m
- Хроники разговоров: https://conversation-chronicles.github.io/