Загрузка Awesome LLM Large Language Models Notes - Awesome LLM Large Language Models Notes Download Исходный код

Awesome-LLM-Large-Language-Models-Notes

Известные модели LLM, классифицированные по годам

Небольшое введение, статья, код и т. д.

Год	Имя	Бумага	Информация	Выполнение
2017 год	Трансформатор	Внимание — это все, что вам нужно	В центре внимания первоначального исследования были задачи перевода.	TensorFlow + статья
2018 год	GPT	Улучшение понимания языка с помощью генеративной предварительной подготовки	Первая предварительно обученная модель Трансформера, использовавшаяся для точной настройки различных задач НЛП и получившая самые современные результаты.
2018 год	БЕРТ	BERT: предварительная подготовка глубоких двунаправленных преобразователей для понимания языка	Еще одна большая предварительно обученная модель, предназначенная для лучшего составления предложений.	PyTorch
2019 год	ГПТ-2	Языковые модели предназначены для многозадачного обучения без присмотра	Улучшенная (и более крупная) версия GPT, которая не была сразу опубликована из-за этических соображений.
2019 год	DistilBERT — Дистиллированный BERT	DistilBERT, усовершенствованная версия BERT: меньше, быстрее, дешевле и легче.	Усовершенствованная версия BERT, которая на 60 % быстрее, на 40 % легче занимает память и при этом сохраняет 97 % производительности BERT.
2019 год	БАРТ	BART: предварительное обучение послойному шумоподавлению для генерации, перевода и понимания естественного языка	Большие предварительно обученные модели, использующие ту же архитектуру, что и исходная модель Transformer.
2019 год	Т5	Исследование ограничений трансферного обучения с помощью унифицированного преобразователя текста в текст	Большие предварительно обученные модели, использующие ту же архитектуру, что и исходная модель Transformer.
2019 год	АЛЬБЕРТ	АЛЬБЕРТ: Lite BERT для самостоятельного изучения языковых представлений
2019 год	RoBERTa — надежно оптимизированный подход к предварительному обучению BERT	RoBERTa: надежно оптимизированный подход к предварительному обучению BERT
2019 год	CTRL	CTRL: языковая модель условного преобразователя для управляемой генерации
2019 год	Трансформер XL	Transformer-XL: модели внимательного языка за пределами контекста фиксированной длины	Принимает методологию повторения по прошлому состоянию в сочетании с относительным позиционным кодированием, обеспечивающим долгосрочные зависимости.
2019 год	Диабло GPT	DialoGPT: крупномасштабная генеративная предварительная тренировка для генерации разговорных ответов	Обучался на 147 миллионах диалогов, извлеченных из цепочек комментариев Reddit, за период с 2005 по 2017 год.	PyTorch
2019 год	ЭРНИ	ЭРНИ: расширенное языковое представление с информативными объектами	В этой статье мы используем как крупномасштабные текстовые корпуса, так и KG для обучения расширенной модели языкового представления (ERNIE), которая может одновременно в полной мере использовать лексическую, синтаксическую и информационную информацию.
2020 год	ГПТ-3	Языковые модели — это немногие ученики	Еще более крупная версия GPT-2, способная хорошо справляться с различными задачами без необходимости тонкой настройки (так называемое обучение с нулевым выстрелом).
2020 год	ЭЛЕКТРА	ЭЛЕКТРА: ПРЕДВАРИТЕЛЬНЫЕ КОДЕРЫ ТЕКСТА КАК ДИСКРИМИНАТОРЫ, А НЕ ГЕНЕРАТОРЫ
2020 год	мБАРТ	Предварительное обучение многоязычному шумоподавлению для нейронного машинного перевода
2021 год	CLIP (предварительная тренировка по контрастному языку и изображению)	Изучение переносимых визуальных моделей под контролем естественного языка	CLIP — это нейронная сеть, обученная на различных парах (изображение, текст). Ему можно дать указание на естественном языке предсказать наиболее релевантный фрагмент текста по изображению без прямой оптимизации для задачи, аналогично возможностям GPT-2 и 3 с нулевым выстрелом.	PyTorch
2021 год	ДАЛЛ-И	Генерация текста в изображение с нуля		PyTorch
2021 год	Суслик	Масштабирование языковых моделей: методы, анализ и идеи обучения Gopher
2021 год	Трансформатор решений	Трансформатор решений: обучение с подкреплением посредством моделирования последовательностей	Архитектура, которая ставит проблему RL как моделирование условной последовательности.	PyTorch
2021 год	GLam (универсальная языковая модель)	GLaM: эффективное масштабирование языковых моделей с участием специалистов	В этой статье мы предлагаем и разрабатываем семейство языковых моделей под названием GLaM (Общая языковая модель), которое использует редко активируемую архитектуру смешанных экспертов для масштабирования емкости модели, а также требует существенно меньших затрат на обучение по сравнению с плотными вариантами.
2022 год	чатGPT/InstructGPT	Обучение языковых моделей следованию инструкциям с обратной связью от человека	Эта обученная языковая модель гораздо лучше справляется с намерениями пользователя, чем GPT-3. Модель оптимизирована (точно настроена) с использованием обучения с подкреплением и обратной связью с человеком (RLHF) для достижения диалога. Модель была обучена с использованием различных данных, записанных людьми, для получения ответов, звучащих как человеческие.	:-:
2022 год	Шиншилла	Обучение оптимальных для вычислений моделей большого языка	Использует тот же вычислительный бюджет, что и Gopher, но с 70 млрд параметров и в 4 раза больше данных.	:-:
2022 год	LaMDA — языковые модели для диалоговых приложений	ЛаМДА	Это семейство моделей нейронного языка на основе Transformer, специализирующихся на диалоге.
2022 год	DQ-БАРТ	DQ-BART: эффективная модель преобразования последовательности в последовательность посредством совместной дистилляции и квантования	Предложите совместно дистиллировать и квантовать модель, в которой знания передаются из модели учителя с полной точностью в квантованную и дистиллированную модель ученика с низкой точностью.
2022 год	Фламинго	Фламинго: модель визуального языка для кратковременного обучения	Создание моделей, которые можно быстро адаптировать к новым задачам, используя всего несколько аннотированных примеров, является открытой задачей для исследований в области мультимодального машинного обучения. Мы представляем Flamingo, семейство моделей визуального языка (VLM) с этой способностью.
2022 год	Гато	Универсальный агент	Вдохновленные прогрессом в крупномасштабном языковом моделировании, мы применяем аналогичный подход для создания единого универсального агента, выходящего за рамки текстового вывода. Агент, которого мы называем Гато, работает как мультимодальная, многозадачная, многовариантная универсальная политика.
2022 год	ГОДЕЛЬ: Масштабный предварительный тренинг для целенаправленного диалога	ГОДЕЛЬ: Масштабный предварительный тренинг для целенаправленного диалога	В отличие от более ранних моделей, таких как DialoGPT, GODEL использует новую фазу обоснованного предварительного обучения, предназначенную для лучшей поддержки адаптации GODEL к широкому спектру последующих диалоговых задач, для которых требуется информация, внешняя по отношению к текущему разговору (например, база данных или документ). давать хорошие ответы.	PyTorch
2023 год	ГПТ-4	Технический отчет GPT-4	Модель теперь принимает мультимодальные входные данные: изображения и текст.	:-:
2023 год	BloombergGPT	BloombergGPT: большая языковая модель для финансов	LLM, специализирующийся в финансовой сфере, обученный работе с обширными источниками данных Bloomberg.
2023 год	ЦВЕСТИ	BLOOM: многоязычная языковая модель открытого доступа с 176 параметрами	BLOOM (BigScience Large Open-science Open-access Multilingual Language Model) — это языковая модель Transformer, предназначенная только для декодера, которая была обучена на корпусе ROOTS, наборе данных, включающем сотни источников на 46 естественных и 13 языках программирования (всего 59).
2023 год	Лама 2	Лама 2: Открытый фундамент и точно настроенные модели чата		PyTorch №1 PyTorch №2
2023 год	Клод	Клод	Клод может анализировать 75 тысяч слов (100 тысяч токенов). GPT4 может обрабатывать всего 32,7 тыс. токенов.
2023 год	СамопроверкаGPT	SelfCheckGPT: обнаружение галлюцинаций черного ящика с нулевым ресурсом для генеративных моделей большого языка	Простой подход, основанный на выборке, который можно использовать для проверки моделей «черного ящика» без использования ресурсов, т. е. без внешней базы данных.

Модели LLM, классифицированные по размеру

Имя	Размер (количество параметров)	Жетоны обучения	Данные обучения
ГЛаМ	1,2Т
Суслик	280Б	300Б
ЦВЕСТИ	176Б		КОРНИ корпуса
ГПТ-3	175Б
ЛаМДА	137Б	168Б	1,56 тыс. слов данных публичного диалога и веб-текста
Шиншилла	70Б	1,4 Т
Лама 2	7Б, 13Б и 70Б
BloombergGPT	50Б	363Б+345Б
Сокол40Б	40Б	1Т	1000 млрд токенов RefinedWeb

М=миллион | Б=миллиард | Т=триллион

Модели LLM, классифицированные по названию

АЛЬБЕРТ | Альпака
БАРТ | БЕРТ | Большая Птица | БЛУМ |
Шиншилла | КЛИП | CTRL | чатGPT | Клод
ДАЛЛ-И | ДАЛЛ-И-2 | Трансформаторы решений | ДиалоGPT | ДистилБЕРТ | ДК-БАРТ |
ЭЛЕКТРА | ЭРНИ
Фламинго | Сокол40Б
Гато | Суслик | ГЛаМ | ГЛАЙД | GPT | ГПТ-2 | ГПТ-3 | ГПТ-4 | GPT-Нео | Гёдель | ГПТ-J
Изображение | ИнструктироватьGPT
Юрский-1
ЛаМДА | Лама 2
мБАРТ | Мегатрон | Минерва | МТ-НЛГ
ОПТ
Пальма | Пегас
РОБЕРТа
СиКер | Свинцовый трансформатор | Переключатель | СамопроверкаGPT
Трансформатор | Т5 | Траекторные Трансформаторы | Трансформер XL | Тьюринг-НЛГ
ВИТ
У Дао 2.0 |
XLM-РоБЕРТа | XLNet

Классификация по архитектуре

Архитектура	Модели	Задачи
Только для кодировщиков, также называемые моделями трансформаторов с автоматическим кодированием.	АЛЬБЕРТ, БЕРТ, ДистилБЕРТ, ЭЛЕКТРА, РОБЕРТа	Классификация предложений, распознавание названного объекта, экстрактивный ответ на вопрос
Только декодер, т. е. авторегрессионные (или причинно-следственные) модели трансформаторов.	CTRL, GPT, GPT-2, Трансформатор XL	Генерация текста по подсказке
Кодер-декодер, также известный как модели преобразователя последовательность в последовательность.	БАРТ, Т5, Мэриан, мБАРТ	Подведение итогов, перевод, ответы на порождающие вопросы

Что такого особенного в HuggingFace?

HuggingFace, популярная библиотека НЛП, но она также предлагает простой способ развертывания моделей через API вывода. Когда вы создаете модель с помощью библиотеки HuggingFace, вы можете затем обучить ее и загрузить в Model Hub. Подробнее об этом читайте здесь.
Список блокнотов

Обязательно прочтите статьи по LLM

2014 | Нейронный машинный перевод: совместное обучение выравниванию и переводу
2022 | ОПРОС ПО GPT-3
2022 | Эффективное масштабирование вывода трансформатора
Обязательно прочтите статьи о предварительно обученных языковых моделях (PLM)

Резюме | Введи меня в курс дела!

Знакомство с странным миром LLM

Статьи в блоге

Создание синтезатора с помощью ChatGPT
PubMed GPT: предметно-ориентированная модель большого языка для биомедицинского текста
ChatGPT — Там, где его не хватает
Потрясающие подсказки ChatGPT
ChatGPT против GPT3: окончательное сравнение
Prompt Engineering 101: Введение и ресурсы
Модели-трансформеры: введение и каталог — издание 2022 г.
Могут ли GPT-3 или BERT когда-либо понимать язык?⁠ — Ограничения языковых моделей глубокого обучения
10 вещей, которые вам нужно знать о BERT и архитектуре трансформатора, которые меняют ландшафт искусственного интеллекта
Полное руководство по трансформаторам
Разоблачение BERT: ключ к производительности модели трансформатора
Модели НЛП-трансформера (Мина и LaMDA): «разумны» ли они и что это значит для чат-ботов с открытым доменом?
Предварительно обученные модели с обнимающим лицом: найдите лучшую модель для своей задачи
Оптимизация вывода модели большого трансформатора
Учебное пособие из 4 частей о том, как работают трансформаторы: Часть 1 | Часть 2 | Часть 3 | Часть 4
Чем полезен диалоговый агент?
Понимание больших языковых моделей: преобразующий список литературы
Оперативное проектирование
Создание приложений LLM для производства
Руководство разработчика по LLMOps: оперативное проектирование, агенты LLM и наблюдаемость
Аргументы в пользу использования RL LLM
Почему Google и OpenAI проигрывают сообществам с открытым исходным кодом
Вы, вероятно, не знаете, как заниматься быстрым инжинирингом!
Полная история больших языковых моделей и RLHF
Понимание оценок OpenAI
Что мы знаем о LLM (начальное пособие)
Черт возьми, покажи мне подсказку.

Знайте их ограничения!

ChatGPT и Wolfram|Alpha
Цифры, которые должен знать каждый разработчик LLM

Схема финансирования стартапов

Финансирование стартапов НЛП в 2022 году

Доступные руководства

Создание поисковой системы с предварительно обученной моделью BERT
Точная настройка предварительно обученной модели BERT для задачи классификации текста
Точная настройка предварительно обученной модели BERT на наборе данных обзора продуктов Amazon.
Анализ настроений с помощью преобразователя Hugging Face
Точная настройка предварительно обученной модели BERT на основе обзора YELP. Задача классификации.
HuggingFace API
ОбниманиеНаполнение маски для лица
Распознавание имени HuggingFace NER
Ответ на вопрос HuggingFace в контексте
Генерация текста HuggingFace
Текст HuggingFace summarisation.ipynb
HuggingFace обучение с нулевым выстрелом

Небольшая заметка по рендерингу блокнота

В наличии два блокнота:
- Один с цветными рамками и внешней папкой GitHub_MD_rendering
- Один черно-белый в папке GitHub_MD_rendering

Как запустить блокнот в Google Colab

Самый простой вариант — клонировать этот репозиторий.
Перейдите в Google Colab и откройте блокнот прямо из Colab.
Затем вы также можете записать его обратно на GitHub, если предоставлено разрешение Colab. Вся процедура автоматизирована.