Кураторский список наборов данных, моделей, документов и репозиториев по настройке инструкций с открытым исходным кодом.
Следуя Лонгпре и др., мы перечисляем все существующие наборы данных по настройке инструкций, модифицированные из традиционных задач НЛП.
Выпускать | Наборы данных | Количество задач | Количество экземпляров | Имя_модели | База | Модель_Размер |
---|---|---|---|---|---|---|
2020-05 | Унифицированный контроль качества | 46 | 750 тыс. | Унифицированный контроль качества | РоБерта | 110-340 М |
2021-04 | Кроссфит | 159 | 71.М | БАРТ-Кроссфит | БАРТ | 140 М |
2021-04 | Естественный Инст v1.0 | 61 | 620 тыс. | Генерал БАРТ | БАРТ | 140 М |
2021-09 | Флан 2021 | 62 | 4,4 млн. | Флан-ЛаМДА | ЛаМДА | 137Б |
2021-10 | П3 | 62 | 12М | ТО, ТО+, ТО++ | Т5-ЛМ | 3-11Б |
2021-10 | МеталлCL | 142 | 3,5 млн. | МеталлCL | ГПТ-2 | 770 М |
2021-11 | ЭксМикс | 107 | 500 тыс. | ЭксТ5 | Т5 | 220М-11Б |
2022-04 | Сверхъестественный Инст. | 1613 | 5М | Тк-Инструкт | Т5-ЛМ, мТ5 | 17-13Б |
2022-10 | ГЛМ | 77 | 12М | ГЛМ-130Б | ГЛМ | 130 Б |
2022-10 | Флан 2022 | 1836 г. | 15М | Флан-Т5, Флан-ПаЛМ | Т5-ЛМ, ПалМ | 10 М-540 Б |
2022-11 | xP3 | 71 | 81М | БЛУМз, мТО | БЛУМ, мТ5 | 13-176Б |
2022-12 | Неестественный Инст. | 117 | 64 тыс. | Т5-ЛМ-Уннат. Инст. | Т5-ЛМ | 11Б |
Выпускать | Имя_модели | База | Модель_Размер | Наборы данных | Количество экземпляров | Язык |
---|---|---|---|---|---|---|
2022-12 | GPT-3 Самостоятельный инст. | ГПТ-3 | 175Б | Самообучение | 82 тыс. | En |
2023-03-03 | альпака | ЛАМА | 7Б | альпака_данные | 52 тыс. | En |
2023-03-19 | альпака-лора | ЛАМА | 7Б 13Б 30Б | alpaca_data、alpaca_data_cleaned | 52 тыс. | En |
2023-03-23 | Китайская-Викунья | ЛАМА | 7Б 13Б | BELLE、Набор данных Гуанако | 1М | Ж |
2023-03-24 | Альпака-CoT | ЛАМА | 7Б | набор данных | ---- | Эн Ж |
2023-03-25 | Долли | Долли | 6Б | альпака_данные | 52 тыс. | En |
2023-03-25 | гуанако | ЛАМА | 7Б | ГуанакоНабор данных | 534 тыс. | Эн Жа Де |
2023-03-28 | Китайский-ЛАМА-Альпака | ЛАМА | 7Б | alpaca_data_zh、pCLUE、translation2019zh、alpaca_data、Самообучение | 2М | Ж |
2023-03-29 | КолоссальныйЧат | ЛАМА | 7Б 13Б | ИнструкцияWild | 104 тыс. | Эн Ж |
2023-03-31 | Луотуо | LLaMA ЧатGLM | 7Б 6Б | trans_chinese_alpaca_data | 52 тыс. | Ж |
2023-03-31 | Церебра-Лора-Альпака | Церебрас-GPT | 2,7Б | АльпакаДанныеОчищены | 52 тыс. | En |
Большинство существующих наборов данных представлены на английском языке. Однако большая часть населения мира недостаточно обслуживается с точки зрения наличия данных по своим языкам. Как гарантировать, что каждый человек во всем мире сможет извлечь выгоду из генеративного ИИ? Мы разработали простой инструмент перевода с открытым исходным кодом на основе Helsinki-NLP, способный бесплатно переводить наборы данных с английского языка на более чем 100 языков. Хотя эти переведенные наборы данных могут содержать некоторый шум, они служат жизнеспособной альтернативой дорогостоящим высококачественным данным. См. ниже.
python translator.py model_name source_data_path
python translator.py Helsinki-NLP/opus-mt-en-zh alpaca_data.json
Наш инструмент предназначен для работы с данными альпаки и моделью Helsinki-NLP/opus-mt-en-zh. Различные наборы данных или модели Helsinki-NLP дают разные результаты. Из-за ограничений модели качество перевода не всегда может быть оптимальным. Например, мы наблюдали случаи повторения слов в переводах с английского на китайский, что побудило нас разработать «process.py» для устранения переведенных подсказок, содержащих строки любой длины, которые появляются три раза подряд. Мы предоставляем окончательную версию в «translated_alpaca_data.json».
python process.py unprocessed_data_path
python process.py translated_data.json
# Модель Хельсинки-НЛП может иметь ограничение максимальной длины входного предложения. Мы отклонили запросы, превышающие лимит, перед их переводом.
Мы тщательно изучили статьи в этой области и перечислили наиболее ценные из них ниже:
Тщательно настроенные языковые модели — беспроигрышные варианты 2021.9
Многозадачное обучение обеспечивает нулевое обобщение задач 2021.10
Обучение языковых моделей следованию инструкциям с обратной связью от человека 2022.3
Super-NaturalInstructions: обобщение с помощью декларативных инструкций для более чем 1600 задач НЛП 2022.4
Неконтролируемое обобщение перекрестных задач посредством расширения поиска 2022.4
Введение в инструкции: от нескольких примеров к описанию задач на естественном языке 2022.5
Языковые модели с точной настройкой масштабирования 2022.10
Угадай инструкцию! Перевернутое обучение делает языковые модели более сильными для учащихся с нулевым шансом 2022.10
Неестественные инструкции: настройка языковых моделей с (почти) без человеческого труда 2022.12
Улучшение обобщения перекрестных задач унифицированных моделей преобразования таблицы в текст с помощью композиционных конфигураций задач 2022.12
Самообучение: согласование языковой модели с самогенерируемыми инструкциями 2022.12
MultiInstruct: улучшение мультимодального обучения с нулевым выстрелом посредством настройки инструкций 2022.12
Коллекция Флана: разработка данных и методов для эффективной настройки инструкций 2023.1
Обучение в контексте инструкций 2023.2
Кроме того, мы предоставили список связанных репозиториев для дальнейшего использования.
потрясающая инструкция-обучение
потрясающий набор данных-инструкций
ICL_PaperList
быстрое обучение в контексте
LM-рассуждение
LLM-обоснования
Цепочка мыслейДокументы
OpenICL