Наборы данных выравнивания • Наборы данных для конкретных предметных областей • Наборы данных для предварительного обучения ?️ Мультимодальные наборы данных
Большие языковые модели (LLM), такие как серия GPT от OpenAI, Bard от Google и Wenxin Yiyan от Baidu, способствуют глубоким технологическим изменениям. В последнее время, с появлением инфраструктур больших моделей с открытым исходным кодом, таких как LlaMa и ChatGLM, обучение LLM больше не является исключительной прерогативой компаний, богатых ресурсами. Обучение LLM небольшими организациями или отдельными лицами стало важным интересом в сообществе открытого исходного кода, и некоторые известные работы включают Alpaca, Vicuna и Luotuo. Помимо крупных моделей, для обучения больших языковых моделей также необходимы крупномасштабные и высококачественные учебные корпуса. В настоящее время соответствующие корпорации с открытым исходным кодом в сообществе все еще разбросаны. Таким образом, цель этого репозитория — постоянно собирать высококачественные учебные корпуса для студентов LLM в сообществе открытого исходного кода.
Обучение чат-бота LLM, способного эффективно следовать инструкциям человека, требует доступа к высококачественным наборам данных, охватывающим широкий спектр областей и стилей разговора. В этом репозитории мы предоставляем тщательно подобранную коллекцию наборов данных, специально разработанных для обучения чат-ботов, включая ссылки, размер, язык, использование и краткое описание каждого набора данных. Наша цель — облегчить исследователям и практикам выявление и выбор наиболее актуальных и полезных наборов данных для нужд обучения их чат-ботов LLM. Работаете ли вы над улучшением качества диалога чат-бота, генерации ответов или понимания языка, в этом репозитории есть что-то для вас.
Если вы хотите внести свой вклад, вы можете связаться:
Цзюньхао Чжао?
Консультирует профессор Ваньюнь Цуй
Имя набора данных | Используется | Тип | Язык | Размер | Описание ️ |
---|---|---|---|---|---|
помогите управлять | / | РЛХФ | Английский | 37 тысяч экземпляров | Набор данных RLHF, аннотированный человеком с указанием показателей полезности, правильности, связности, сложности и многословия. |
no_robots | / | СФТ | Английский | экземпляр 10 тыс. | Высококачественные данные STF, созданные человеком, за один оборот. |
Имя набора данных | Используется | Тип | Язык | Размер | Описание ️ |
---|---|---|---|---|---|
Антропный_ HH_Золотой | УЛМА | СФТ / РЛХФ | Английский | поезд 42,5к + тест 2,3к | Улучшен безвредный набор данных Anthropic Helpful и Harmless (HH). Использование GPT4 для перезаписи исходного «выбранного» ответа. По сравнению с исходным набором данных Harmless, эмпирически этот набор данных значительно улучшает эффективность методов RLHF, DPO или ULMA по безвредным показателям. |
Имя набора данных | Используется | Тип | Язык | Размер | Описание ️ |
---|---|---|---|---|---|
функция_ звоню_ расширенный | / | Пары | Английский код | / | Высококачественный набор данных, созданный человеком, благодаря расширению возможностей использования API LM. |
Американские истории | / | ПТ | Английский | / | Огромный корпус, отсканированный из Библиотеки Конгресса США. |
долма | ОЛМо | ПТ | / | токены 3Т | Большой разнообразный корпус с открытым исходным кодом для предварительной подготовки LM. |
Утконос | Утконос2 | Пары | Английский | 25 тыс. | Набор данных очень высокого качества для улучшения способности LM рассуждать в STEM. |
Тупик | Редмонд-Тупиок Ряд | Диалог | Английский | ~3 тыс. записей | Набор данных состоит из разговоров между реальным человеком и GPT-4, который имеет длинный контекст (более 1 тыс. токенов на разговор) и многоходовые диалоги. |
крошечная серия | / | Пары | Английский | / | Серия коротких и лаконичных кодов или текстов направлена на улучшение умственных способностей LM. |
Лонгбенч | / | Оценка Только | Английский китайский | 17 заданий | Эталон для оценки способности LLM понимать длинный контекст. |
Имя набора данных | Используется | Тип | Язык | Размер | Описание ️ |
---|---|---|---|---|---|
косатка-чат | / | Диалог | Английский | 198 463 записи | Набор диалоговых данных в стиле Orca направлен на улучшение способности LM к длительному контекстному диалогу. |
ДиалогСтудия | / | Диалог | Многоязычный | / | Коллекция разнообразных наборов данных направлена на создание диалогового чат-бота. |
чат-бот_арена _разговоры | / | РЛХФ Диалог | Многоязычный | 33 тыс. разговоров | Очищены разговоры с парными человеческими предпочтениями, собранными на Chatbot Arena. |
WebGLM-QA | WebGLm | Пары | Английский | 43,6 тыс. записей | Набор данных, используемый WebGLM — системой контроля качества, основанной на LLM и Интернете. Каждая запись в этом наборе данных содержит вопрос, ответ и ссылку. Ответ основан на ссылке. |
фи-1 | фи-1 | Диалог | Английский | / | Набор данных, созданный с помощью метода из книги «Все, что вам нужно: учебники». Основное внимание уделяется математике и задачам CS. |
Линли- предтренировочный- набор данных | Линли серия | ПТ | китайский | 3,4 ГБ | Китайский набор данных для предварительного обучения, используемый моделью серии Linly, включает ClueCorpusSmall, сканирование новостей CSL и т. д. |
МелкозернистыйRLHF | / | РЛХФ | Английский | ~5 тыс. примеров | Репо направлено на разработку новой структуры для сбора отзывов людей. Собранные данные предназначены для улучшения фактической правильности LLM, актуальности темы и других способностей. |
дельфин | / | Пары | Английский | 4,5 млн записей | Попытка воспроизвести Orca от Microsoft. На основе FLANv2. |
openchat_ доляgpt4_ набор данных | Открытый чат | Диалог | Английский | 6 тысяч диалогов | Высококачественный набор данных, созданный с использованием GPT-4 для уточнения запросов ShareGPT. |
Имя набора данных | Используется | Тип | Язык | Размер | Описание ️ |
---|---|---|---|---|---|
OpenOrca | / | Пары | Английский | 4,5 млн завершений | Коллекция дополненных данных FLAN. С помощью метода создается бумага Orca. |
COIG-ПК COIG-Lite | / | Пары | китайский | / | Расширенная версия COIG. |
МастерLM_Orca | серия orca_mini | Пары | Английский | 55 тысяч записей | Расширенные данные WizardLM. Создано с использованием метода orca. |
arxiv инструктирует наборы данных математика CS Физика | / | Пары | Английский | 50 тыс./ 50 тыс./ 30 тысяч записей | набор данных состоит из пар вопросов-ответов, полученных из тезисов ArXiv. Вопросы генерируются с использованием базовой модели t5, а ответы генерируются с использованием модели GPT-3.5-турбо. |
я-чувствую- любопытный | / | Пары | Английский | 2595 записей | Случайные вопросы и соответствующие факты, созданные Google. Я чувствую любопытные особенности. |
ign_clean _инструктировать _dataset_500k | / | Пары | / | 509 тысяч записей | Крупномасштабный набор данных SFT, синтетически созданный из подмножества подсказок Ultrachat. отсутствие подробной карты данных |
МастерLM эволюционировать_инструкт V2 | МастерLM | Диалог | Английский | 196 тысяч записей | Последняя версия набора данных Evolve Instruct. |
Динозавр | / | Пары | Английский | 800 тысяч записей | Набор данных, созданный с помощью метода, описанного в этой статье. Highlight — это создание высококачественных данных по низкой цене. |
Тонкая Пижама | / | ПТ | В первую очередь Английский | / | Очищенная и дедуплицированная версия RedPajama. |
Набор данных ЛИМА | ЛИМА | Пары | Английский | 1 тыс. записей | Высококачественный набор данных SFT, используемый LIMA: для выравнивания меньше значит больше |
Серия TigerBot | ТайгерБот | ПТ Пары | китайский Английский | / | Наборы данных, используемые для обучения TigerBot, включая данные предварительного обучения, данные STF и некоторые наборы данных для конкретной предметной области, такие как отчеты о финансовых исследованиях. |
ТСИ-v0 | / | Пары | Английский | 30 тысяч примеров за задачу | Данные настройки многозадачных инструкций, преобразованные из 475 наборов данных источника задач. Аналогично набору данных Flan и естественной инструкции. |
НМБВК | / | ПТ | китайский | / | Крупномасштабный, постоянно обновляемый китайский набор данных для предварительной подготовки. |
StackOverflow почта | / | ПТ | / | 35 ГБ | Необработанные данные StackOverflow в формате уценки для предварительного обучения. |
Имя набора данных | Используется | Тип | Язык | Размер | Описание ️ |
---|---|---|---|---|---|
LaMini-Инструкция | / | Пары | Английский | 2,8 млн записей | Набор данных, полученный из коллекции флана, p3 и самообучения. |
ультраЧат | / | Диалог | Английский | 1,57 млн диалогов | Крупномасштабный набор данных диалога, созданный с использованием двух ChatGPT, один из которых действует как пользователь, а другой генерирует ответ. |
ПоделитьсяGPT_ Викунья_без фильтра | Викунья | Пары | Многоязычный | 53 тыс. записей | Очищен набор данных ShareGPT. |
pku-saferlhf-набор данных | Бобр | РЛХФ | Английский | 10К + 1М | Первый в своем роде набор данных, содержащий 10 000 экземпляров с настройками безопасности. |
RefGPT-набор данных неофициальная ссылка | RefGPT | Пары, Диалог | китайский | ~50 тыс. записей | Набор данных китайского диалога направлен на повышение правильности фактов в LLM (смягчение галлюцинаций LLM). |
Луотуо-QA-A CoQA-китайский | проект Луотуо | Контекст | китайский | 127 тыс. пар контроля качества | Набор данных, созданный на основе переведенного CoQA. Дополнено использованием OpenAI API. |
Мастер-LM-китайский инструкция-эвол | проект Луотуо | Пары | китайский | ~70 тыс. записей | Китайская версия WizardLM 70K. Ответы получаются с помощью переведенных вопросов в GPT API OpenAI, а затем получаются ответы. |
альпака_китайский набор данных | / | Пары | китайский | / | Переведенные данные альпаки GPT-4 включают в себя некоторые дополнительные данные (например, китайскую поэзию, приложения и т. д.). Проверено человеком. |
Жиху-КОЛ | Открыть помощник | Пары | китайский | 1,5 ГБ | Данные контроля качества на известной китайской платформе контроля качества Zhihu. |
Альпака-GPT-4_ж-cn | / | Пары | китайский | около 50 тысяч записей | Набор данных в стиле китайской альпаки, созданный GPT-4, изначально на китайском языке, но не переведенный. |
хх-рлф на Huggingface | Коала | РЛХФ | Английский | 161 тыс. пар 79,3 МБ | Парный набор данных для обучения моделей вознаграждения в обучении с подкреплением для повышения безвредности и полезности языковых моделей. |
Panther-dataset_v1 | Пантера | Пары | Английский | 377 записей | Набор данных поступает из файла hh-rlhf. Он переписывает hh-rlhf в форму пар ввода-вывода. |
Набор данных Байзе | Байка | Диалог | Английский | 100 тысяч диалогов | Набор данных диалога, созданный GPT-4 с использованием внутреннего диалога. Вопросы и темы собраны из Quora, StackOverflow и некоторых источников медицинских знаний. |
h2ogpt-fortune2000 персонализированный | h2ogpt | Пары | Английский | 11363 записи | Инструкция по тонкой настройке, разработанная h2oai, охватывает различные темы. |
МГП | КонюшняВикунья, чат-опт, , СтимШП | РЛХФ | Английский | 385 тысяч записей | Набор данных RLHF отличается от ранее упомянутых: он использует оценки + временные метки для определения предпочтений пользователей. Охватывает 18 доменов, собранных Стэнфордом. |
ЭЛИ5 | Серия МиниЛМ | ФТ, РЛХФ | Английский | 270 тыс. записей | Вопросы и ответы, собранные с Reddit, включая оценку. Может использоваться для обучения модели вознаграждения RLHF. |
МастерLM evol_instruct V2 | МастерLM | Пары | Английский | Набор данных точной настройки инструкций, полученный из Alpaca-52K с использованием метода эволюции , описанного в этой статье. | |
Данные МОСС SFT | МОХ | Пары, Диалог | китайский, английский | 1,1 млн записей | Диалоговый набор данных, собранный и разработанный командой MOSS. Для каждой записи данных имеются метки полезности, лояльности и безвредности. |
ПоделитьсяGPT52K | Коала, стабильный LLM | Пары | Многоязычный | 52К | Этот набор данных включает разговоры, собранные из ShareGPT, с особым упором на персонализированные творческие разговоры. |
Набор данных GPT-4all | GPT-4все | Пары | Английский, Мог бы иметь переведенная версия | 400 тысяч записей | Комбинация некоторых подмножеств OIG, P3 и Stackoverflow. Охватывает такие темы, как общий контроль качества, индивидуальные творческие вопросы. |
ЦИГ | / | Пары | Китайский, код | 200 тыс. записей | Набор данных на основе Китая. Он содержит такие домены, как контроль качества общего назначения, экзамены по китайскому языку, код. Его качество проверяют люди-аннотаторы. |
RedPajama-Data-1T | КрасныйПижама | ПТ | Преимущественно английский | 1,2Т токенов 5 ТБ | Полностью открытый набор данных для предварительного обучения соответствует методу LLaMA. |
ОАССТ1 | OpenAssistant | Пары, Диалог | Многоязычный (английский, испанский и т. д.) | 66 497 деревьев разговоров | Большой, написанный человеком и аннотированный человеком высококачественный набор данных разговоров. Он направлен на то, чтобы LLM вызывал более естественный отклик. |
Альпака-COT | Финикс | Пары, Диалог, ЦТ | Английский | / | Смесь множества наборов данных, таких как классический набор данных Альпака, OIG, Гуанако и некоторые наборы данных CoT (цепочки мыслей), такие как FLAN-CoT. Может быть удобно использовать. |
Бактриан-X | / | Пары | Многоязычный (52 языка) | 67 тыс. записей на каждый язык | Многоязычная версия Альпаки и Долли-15К . |
databricks-dolly-15k zh-cn Вер | Долли2.0 | Пары | Английский | 15 тысяч+ записей | Набор данных написанных человеком подсказок и ответов, включающий такие задачи, как ответы на вопросы в открытой области, мозговой штурм, обобщение и многое другое. |
АльпакаДанныеОчищены | Некоторые модели, похожие на Альпаку/LLaMA. | Пары | Английский | / | Очищенная версия Alpaca, GPT_LLM и GPTeacher. |
Набор данных GPT-4-LLM | Некоторые модели в стиле альпаки | Пары, РЛХФ | Английский, китайский | 52 тыс. записей на английском и китайском языках соответственно. 9 тысяч записей | НЕ набор данных, используемый GPT-4! Он генерируется GPT-4 и некоторыми другими LLM для лучших пар и RLHF. Он включает в себя данные инструкций, а также данные сравнения в стиле RLHF. |
GPTeacher | / | Пары | Английский | 20 тысяч записей | Набор данных содержит цели, сгенерированные GPT-4, и включает в себя многие из тех же начальных задач, что и набор данных Alpaca, с добавлением некоторых новых задач, таких как ролевая игра. |
HC3 | Коала | РЛХФ | Английский, китайский | 24322 английский 12853 Китайский | Многодоменный набор данных для сравнения людей и ChatGPT. Может использоваться для обучения модели вознаграждения или обучения детектору ChatGPT. |
Данные альпаки Скачать | Альпака, ChatGLM-finetune-LoRA, Коала | Диалог, Пары | Английский | 52 тыс. записей 21,4 МБ | Набор данных, созданный text-davinci-003 для улучшения способности языковых моделей следовать человеческим инструкциям. |
ОГИ OIG-маленький чип2 | Pythia-Chat-Base-7B, GPT-NeoXT-Chat-Base-20B, Коала | Диалог, Пары | Английский, код | 44 миллиона записей | Большой набор данных разговорных инструкций с подмножествами среднего и высокого качества (OIG-small-chip2) для многозадачного обучения. |
Данные чатАльпака | / | Диалог, Пары | Английский, Скоро выйдет китайская версия | 10 тысяч записей 39,5 МБ | Набор данных призван помочь исследователям разработать модели следования инструкциям в многоходовых беседах. |
ИнструкцияWild | КолоссальныйЧат | Пары | английский, китайский | 10 тыс. посещений | Набор данных в стиле Альпаки, но с исходными задачами взят из скриншота чатгпт. |
Светлячок (流萤) | Светлячок (流萤) | Пары | китайский | 1,1 млн записей 1,17 ГБ | Набор данных по настройке инструкций на китайском языке, содержащий 1,1 миллиона написанных человеком примеров для 23 задач, но без диалога. |
БЕЛЬ Версия 0,5 М версия 1М версия 2М | Серия BELLE, Чуньхуа (春华) | Пары | китайский | всего 2,67 млрд. | Набор данных китайских инструкций, похожий на данные Альпаки , созданный путем генерации ответов из исходных задач, но без диалога. |
ГуанакоНабор данных | Гуанако | Диалог, Пары | Английский, Китайский, японский | 534 530 записей | Набор данных многоязычных инструкций для расширения возможностей языковых моделей в различных лингвистических задачах, таких как понимание естественного языка и явное распознавание контента. |
OpenAI WebGPT | Модель вознаграждения WebGPT, Koala | РЛХФ | Английский | 19 578 пар | Набор данных, используемый в статье WebGPT. Используется для обучения модели вознаграждения в RLHF. |
ОпенАИ Подведение итогов Сравнение | Коала | РЛХФ | Английский | ~93 тыс. записей 420 МБ | Набор данных обратной связи с людьми, который помогает тренировать модель вознаграждения. Затем модель вознаграждения использовалась для обучения модели обобщения в соответствии с предпочтениями человека. |
самообучать | / | Пары | Английский | 82 тыс. записей | Набор данных, созданный с использованием известного метода самообучения. |
неестественные инструкции | / | Пары | Английский | 240 670 примеров | Ранняя попытка использовать мощную модель (text-davinci-002) для генерации данных. |
xP3 (и некоторые варианты) | БЛУМЗ, mT0 | Пары | Многоязычный, код | 79 миллионов записей 88 ГБ | Набор данных инструкций для улучшения способности к обобщению языковых моделей, аналогичный Natural Instruct . |
Флан V2 | / | / | Английский | / | Набор данных компилирует наборы данных из Flan 2021, P3, Super-Natural Instructions, а также десятки других наборов данных в один и форматирует их в смесь шаблонов с нулевым, малым количеством и цепочкой мыслей. |
Естественное обучение GitHub&Скачать | серия tk-instruct | Пары, оценка | Многоязычный | / | Эталонный тест с более чем 1600 задачами с инструкциями и определениями для оценки и улучшения многозадачного обобщения языковых моделей при обучении на естественном языке. |
КроссWOZ | / | Диалог | Английский, китайский | 6К диалогов | Набор данных, представленный в этой статье, в основном посвящен теме туризма в Пекине, ответы генерируются автоматически по правилам. |
Мы рассматриваем элементы строк как подлежащие.
ОГИ | хх-рлф | xP3 | естественный инструктировать | АльпакаДанныеОчищены | ГПТ-4-ЛЛМ | Альпака-CoT | |
---|---|---|---|---|---|---|---|
ОГИ | / | содержит | перекрывать | перекрывать | перекрывать | перекрывать | |
хх-рлф | часть | / | перекрывать | ||||
xP3 | перекрывать | / | перекрывать | перекрывать | |||
естественный инструктировать | перекрывать | перекрывать | / | перекрывать | |||
АльпакаДанныеОчищены | перекрывать | / | перекрывать | перекрывать | |||
ГПТ-4-ЛЛМ | перекрывать | / | перекрывать | ||||
Альпака-CoT | перекрывать | перекрывать | перекрывать | перекрывать | перекрывать | перекрывать | / |
Имя набора данных | Используется | Тип | Язык | Размер | Описание ️ |
---|---|---|---|---|---|
стопка доказательств | доказательство-GPT | ПТ | Английский Латекс | 13 ГБ | Набор данных для предварительного обучения, похожий на стопку, но имеющий корпус LaTeX для повышения способности LM выполнять доказательства. |
peS2o | / | ПТ | Английский | 7,5 ГБ | Высококачественный набор академических документов для предварительного обучения. |
StackOverflow почта | / | ПТ | / | 35 ГБ | Необработанные данные StackOverflow в формате уценки для предварительного обучения. |
Тонкая Пижама | / | ПТ | В первую очередь Английский | / | Очищенная и дедуплицированная версия RedPajama. |
НМБВК | / | ПТ | китайский | / | Крупномасштабный, постоянно обновляемый китайский набор данных для предварительной подготовки. |
Сокол-RefinedWeb | серия tiiuae/сокол | ПТ | Английский | / | Усовершенствованное подмножество CommonCrawl. |
CBook-150K | / | ПТ, набор данных здания | китайский | 150 тысяч+ книг | Необработанный набор данных китайских книг. Нужен какой-то конвейер предварительной обработки. |
Обычное сканирование | LLaMA (После некоторого процесса) | построение наборов данных, ПТ | / | / | Самый известный набор необработанных данных, который редко используется напрямую. Одним из возможных конвейеров предварительной обработки является CCNet. |
nlp_Chinese_Corpus | / | ПТ, ТФ | китайский | / | Китайский корпус предварительной подготовки. Включает Wikipedia, Baidu Baike, Baidu QA, некоторые форумы QA и корпус новостей. |
Куча (V1) | GLM (частично), LLaMA (частично), GPT-J, GPT-NeoX-20B, Cerebras-GPT 6.7B, OPT-175b | ПТ | Многоязычный, код | 825 ГБ | Разнообразный набор данных языкового моделирования с открытым исходным кодом, состоящий из 22 небольших высококачественных наборов данных, включающий множество областей и задач. |
С4 Набор данных Huggingface Набор данных TensorFlow | Серия Google T5, LLaMA | ПТ | Английский | 305 ГБ | Колоссальная, очищенная версия корпуса веб-сканирования Common Crawl. Часто использовать. |
КОРНИ | ЦВЕСТИ | ПТ | Многоязычный, код | 1,6 ТБ | Разнообразный набор данных с открытым исходным кодом, состоящий из поднаборов данных, таких как Wikipedia и StackExchange, для языкового моделирования. |
PushshPairs Reddit бумага | ОПТ-175б | ПТ | / | / | Необработанные данные Reddit, один из возможных конвейеров обработки в этой статье. |
проект Гутенберга | ЛАМА | ПТ | Многоязычный | / | Набор данных книг, в основном романов. Не подвергаться предварительной обработке. |
CLUECorpus | / | ПТ, тонкая настройка, оценка | китайский | 100 ГБ | Китайский корпус предварительной подготовки, полученный из Common Crawl . |
Имя набора данных | Используется | Тип | Язык | Размер | Описание ️ |
---|---|---|---|---|---|
Старкодерданные | звездодер ряд | ПТ | код | 783 ГБ | Большой набор данных для предварительного обучения для улучшения способностей LM к кодированию. |
код_ инструкции _120k_alpaca | / | Пары | английский/код | 121 959 записей | code_instruction в формате точной настройки инструкций. |
функция- призывы-25к | немного MPT варианты | Пары | Английский код | 25 тысяч записей | Целью набора данных является обучение моделей ИИ тому, как правильно вызывать функции APIsGuru на основе подсказок на естественном языке. |
ТеоремаQA | / | Пары | Английский | 800 | Высококачественный набор данных для контроля качества STEM-теоремы. |
фи-1 | фи-1 | Диалог | Английский | / | Набор данных, созданный с помощью метода из учебников — все, что вам нужно. Основное внимание уделяется математике и задачам CS. |
ФинНЛП | ФинГПТ | Необработанные данные | Английский, китайский | / | Необработанные финансовые текстовые данные с открытым исходным кодом. Включает новости, социальные сети и т. д. |
ПРМ800К | Вариант ГПТ-4 | Контекст | Английский | 800 тысяч записей | Набор данных контроля процесса для математических задач |
Данные MeChat | МеЧат | Диалог | китайский | 355733 высказываний | Китайский набор данных SFT для обучения чат-бота в области психического здоровья. |
ChatGPT-Джейлбрейк-Подсказки | / | / | Английский | Размер файла 163 КБ | Предлагает обойти правила безопасности ChatGPT. Может использоваться для проверки безвредности LLM. |
потрясающий китайский юридические ресурсы | ЛаРГПТ | / | китайский | / | Сборник китайских юридических данных для обучения LLM. |
Полная форма | / | Пары | Английский | 23,7 тыс. записей | Набор данных направлен на улучшение способности LLM генерировать длинные тексты. |
символическая-инструкция-настройка | / | Пары | Английский, код | 796 | Набор данных фокусируется на «символических» задачах: таких как кодирование SQL, математические вычисления и т. д. |
Подсказка по безопасности | / | Только оценка | китайский | 100 тысяч записей | Китайская безопасность побуждает оценивать и улучшать безопасность LLM. |
Очищенный тапиром | / | Пары | Английский, | 116 тысяч записей | Это переработанная версия набора данных DAISLab правил PairsTT, которая была тщательно очищена, оценена и скорректирована с целью настройки инструкций. |
обучающий_ codesearchnet_python | / | Пары | Английский & Питон | 192 МБ | Этот набор данных представляет собой созданный шаблон обучающий набор данных Python, созданный на основе аннотированной версии набора данных сети поиска кода для проекта Open-Assistant. |
финансы-альпака | / | Пары | Английский | 1,3 тыс. записей | Набор данных в стиле Альпаки, но с акцентом на финансовые темы. |
Имя набора данных | Используется | Тип | Язык | Размер | Описание ️ |
---|---|---|---|---|---|
ПоделитьсяGPT4V | / | изображение-подсказка-заголовок | Английский | 1,2 млн экземпляров | Набор данных мультимодальных подписей на базе GPT4-Vision. |
ОБЕЛИКИ | идентификаторы ряд | документ-изображение | Английский | 141 млн документов | открытая, массивная и тщательно подобранная коллекция веб-документов с чередующимися изображениями и текстом. |
ПутешествиеDB | / | изображение-подсказка-заголовок | Английский | 4 миллиона экземпляров | Крупномасштабный набор данных включает в себя задачи контроля качества, подписи и текстовые подсказки, основанные на изображениях Midjourney. |
М3ИТ | Ин-ВЛМ | изображение-инструкции | Многоязычный | 2,4 млн экземпляров | Набор данных включает 40 задач и 400 письменных инструкций, написанных человеком. |
МИМИК-ИТ | Выдра | изображение-инструкции | Многоязычный | 2,2 млн экземпляров | Высококачественные мультимодальные пары инструкций-ответов на основе изображений и видео. |
Инструкция LLaVA | ЛЛаВА | изображение-инструкции | Английский | 158 тыс. образцов | Мультимодальный набор данных, созданный на основе набора данных COCO путем запроса GPT-4 на получение инструкций. |
Имя набора данных | Используется | Тип | Язык | Размер | Описание ️ |
---|---|---|---|---|---|
WebText (ссылки Reddit) | ГПТ-2 | ПТ | Английский | / | Данные были собраны с Reddit и отфильтрованы для предварительного обучения GPT-2. |
Массивтекст | Суслик, Шиншилла | ПТ | 99% английский, 1% другое (включая код) | ||
УДао (悟道) Корпора | ГЛМ | ПТ | китайский | 200 ГБ | Крупномасштабный китайский корпус. Возможный компонент изначально был с открытым исходным кодом, но сейчас недоступен. |