2017 год | Трансформатор | Внимание — это все, что вам нужно | В центре внимания первоначального исследования были задачи перевода. | TensorFlow + статья |
2018 год | GPT | Улучшение понимания языка с помощью генеративной предварительной подготовки | Первая предварительно обученная модель Трансформера, использовавшаяся для точной настройки различных задач НЛП и получившая самые современные результаты. | |
2018 год | БЕРТ | BERT: предварительная подготовка глубоких двунаправленных преобразователей для понимания языка | Еще одна большая предварительно обученная модель, предназначенная для лучшего составления предложений. | PyTorch |
2019 год | ГПТ-2 | Языковые модели предназначены для многозадачного обучения без присмотра | Улучшенная (и более крупная) версия GPT, которая не была сразу опубликована из-за этических соображений. | |
2019 год | DistilBERT — Дистиллированный BERT | DistilBERT, усовершенствованная версия BERT: меньше, быстрее, дешевле и легче. | Усовершенствованная версия BERT, которая на 60 % быстрее, на 40 % легче занимает память и при этом сохраняет 97 % производительности BERT. | |
2019 год | БАРТ | BART: предварительное обучение послойному шумоподавлению для генерации, перевода и понимания естественного языка | Большие предварительно обученные модели, использующие ту же архитектуру, что и исходная модель Transformer. | |
2019 год | Т5 | Исследование ограничений трансферного обучения с помощью унифицированного преобразователя текста в текст | Большие предварительно обученные модели, использующие ту же архитектуру, что и исходная модель Transformer. | |
2019 год | АЛЬБЕРТ | АЛЬБЕРТ: Lite BERT для самостоятельного изучения языковых представлений | | |
2019 год | RoBERTa — надежно оптимизированный подход к предварительному обучению BERT | RoBERTa: надежно оптимизированный подход к предварительному обучению BERT | | |
2019 год | CTRL | CTRL: языковая модель условного преобразователя для управляемой генерации | | |
2019 год | Трансформер XL | Transformer-XL: модели внимательного языка за пределами контекста фиксированной длины | Принимает методологию повторения по прошлому состоянию в сочетании с относительным позиционным кодированием, обеспечивающим долгосрочные зависимости. | |
2019 год | Диабло GPT | DialoGPT: крупномасштабная генеративная предварительная тренировка для генерации разговорных ответов | Обучался на 147 миллионах диалогов, извлеченных из цепочек комментариев Reddit, за период с 2005 по 2017 год. | PyTorch |
2019 год | ЭРНИ | ЭРНИ: расширенное языковое представление с информативными объектами | В этой статье мы используем как крупномасштабные текстовые корпуса, так и KG для обучения расширенной модели языкового представления (ERNIE), которая может одновременно в полной мере использовать лексическую, синтаксическую и информационную информацию. | |
2020 год | ГПТ-3 | Языковые модели — это немногие ученики | Еще более крупная версия GPT-2, способная хорошо справляться с различными задачами без необходимости тонкой настройки (так называемое обучение с нулевым выстрелом). | |
2020 год | ЭЛЕКТРА | ЭЛЕКТРА: ПРЕДВАРИТЕЛЬНЫЕ КОДЕРЫ ТЕКСТА КАК ДИСКРИМИНАТОРЫ, А НЕ ГЕНЕРАТОРЫ | | |
2020 год | мБАРТ | Предварительное обучение многоязычному шумоподавлению для нейронного машинного перевода | | |
2021 год | CLIP (предварительная тренировка по контрастному языку и изображению) | Изучение переносимых визуальных моделей под контролем естественного языка | CLIP — это нейронная сеть, обученная на различных парах (изображение, текст). Ему можно дать указание на естественном языке предсказать наиболее релевантный фрагмент текста по изображению без прямой оптимизации для задачи, аналогично возможностям GPT-2 и 3 с нулевым выстрелом. | PyTorch |
2021 год | ДАЛЛ-И | Генерация текста в изображение с нуля | | PyTorch |
2021 год | Суслик | Масштабирование языковых моделей: методы, анализ и идеи обучения Gopher | | |
2021 год | Трансформатор решений | Трансформатор решений: обучение с подкреплением посредством моделирования последовательностей | Архитектура, которая ставит проблему RL как моделирование условной последовательности. | PyTorch |
2021 год | GLam (универсальная языковая модель) | GLaM: эффективное масштабирование языковых моделей с участием специалистов | В этой статье мы предлагаем и разрабатываем семейство языковых моделей под названием GLaM (Общая языковая модель), которое использует редко активируемую архитектуру смешанных экспертов для масштабирования емкости модели, а также требует существенно меньших затрат на обучение по сравнению с плотными вариантами. | |
2022 год | чатGPT/InstructGPT | Обучение языковых моделей следованию инструкциям с обратной связью от человека | Эта обученная языковая модель гораздо лучше справляется с намерениями пользователя, чем GPT-3. Модель оптимизирована (точно настроена) с использованием обучения с подкреплением и обратной связью с человеком (RLHF) для достижения диалога. Модель была обучена с использованием различных данных, записанных людьми, для получения ответов, звучащих как человеческие. | :-: |
2022 год | Шиншилла | Обучение оптимальных для вычислений моделей большого языка | Использует тот же вычислительный бюджет, что и Gopher, но с 70 млрд параметров и в 4 раза больше данных. | :-: |
2022 год | LaMDA — языковые модели для диалоговых приложений | ЛаМДА | Это семейство моделей нейронного языка на основе Transformer, специализирующихся на диалоге. | |
2022 год | DQ-БАРТ | DQ-BART: эффективная модель преобразования последовательности в последовательность посредством совместной дистилляции и квантования | Предложите совместно дистиллировать и квантовать модель, в которой знания передаются из модели учителя с полной точностью в квантованную и дистиллированную модель ученика с низкой точностью. | |
2022 год | Фламинго | Фламинго: модель визуального языка для кратковременного обучения | Создание моделей, которые можно быстро адаптировать к новым задачам, используя всего несколько аннотированных примеров, является открытой задачей для исследований в области мультимодального машинного обучения. Мы представляем Flamingo, семейство моделей визуального языка (VLM) с этой способностью. | |
2022 год | Гато | Универсальный агент | Вдохновленные прогрессом в крупномасштабном языковом моделировании, мы применяем аналогичный подход для создания единого универсального агента, выходящего за рамки текстового вывода. Агент, которого мы называем Гато, работает как мультимодальная, многозадачная, многовариантная универсальная политика. | |
2022 год | ГОДЕЛЬ: Масштабный предварительный тренинг для целенаправленного диалога | ГОДЕЛЬ: Масштабный предварительный тренинг для целенаправленного диалога | В отличие от более ранних моделей, таких как DialoGPT, GODEL использует новую фазу обоснованного предварительного обучения, предназначенную для лучшей поддержки адаптации GODEL к широкому спектру последующих диалоговых задач, для которых требуется информация, внешняя по отношению к текущему разговору (например, база данных или документ). давать хорошие ответы. | PyTorch |
2023 год | ГПТ-4 | Технический отчет GPT-4 | Модель теперь принимает мультимодальные входные данные: изображения и текст. | :-: |
2023 год | BloombergGPT | BloombergGPT: большая языковая модель для финансов | LLM, специализирующийся в финансовой сфере, обученный работе с обширными источниками данных Bloomberg. | |
2023 год | ЦВЕСТИ | BLOOM: многоязычная языковая модель открытого доступа с 176 параметрами | BLOOM (BigScience Large Open-science Open-access Multilingual Language Model) — это языковая модель Transformer, предназначенная только для декодера, которая была обучена на корпусе ROOTS, наборе данных, включающем сотни источников на 46 естественных и 13 языках программирования (всего 59). | |
2023 год | Лама 2 | Лама 2: Открытый фундамент и точно настроенные модели чата | | PyTorch №1 PyTorch №2 |
2023 год | Клод | Клод | Клод может анализировать 75 тысяч слов (100 тысяч токенов). GPT4 может обрабатывать всего 32,7 тыс. токенов. | |
2023 год | СамопроверкаGPT | SelfCheckGPT: обнаружение галлюцинаций черного ящика с нулевым ресурсом для генеративных моделей большого языка | Простой подход, основанный на выборке, который можно использовать для проверки моделей «черного ящика» без использования ресурсов, т. е. без внешней базы данных. | |