Документы по PLM
Предоставлено Сяолеем Ваном
Крупномасштабные предварительно обученные языковые модели (PLM), такие как BERT и GPT, добились большого успеха и стали важной вехой в НЛП.
В этом репозитории мы собрали некоторые репрезентативные статьи по PLM за последние годы на основе количества цитирований и статей, опубликованных на последних ведущих конференциях (например, ACL, EMNLP, ICLR, ICML, NeurIPS).
Мы будем обновлять репозиторий и приветствуем запросы на включение и проблемы! Спасибо за ваши звездочки и вилки!
Оглавление
- Опрос
- Контрольный показатель
- PLM-проектирование
- Общий
- Знание
- Многоязычный
- Мультимодальный
- Поиск информации
- Код
- Другие
- PLM-анализ
- Знание
- Надежность
- Разреженность
- Другие
- Эффективный PLM
- PLM-адаптация
- Двухэтапный
- Многозадачность
- Адаптер
- Быстрый
- Другие
Опрос
- «Предварительно обученные модели для обработки естественного языка: опрос».
Science China Technological Sciences(2020)
[PDF] - «Какой *BERT? Опрос по организации контекстуализированных кодировщиков».
EMNLP(2020)
[PDF] - «Букварь по BERTологии: что мы знаем о том, как работает BERT».
TACL(2020)
[PDF] - «От статических к динамическим словесным представлениям: обзор».
International Journal of Machine Learning and Cybernetics(2020)
[PDF] - «Обзор моделей на основе трансформаторов для задач НЛП».
2020 15th Conference on Computer Science and Information Systems (FedCSIS)
[PDF] - «Обзор контекстных вложений».
arXiv(2020)
[PDF] - «Поваренная книга НЛП: современные рецепты архитектур глубокого обучения на основе преобразователей».
IEEE Access(2021)
[PDF] - «Предварительно обученные модели: прошлое, настоящее и будущее».
arXiv(2021)
[PDF] - «Предварительное обучение, подсказка и прогнозирование: систематический обзор методов подсказки при обработке естественного языка».
arXiv(2021)
[PDF] - «АММУС: Обзор предварительно обученных моделей на основе преобразователей для обработки естественного языка».
arXiv(2021)
[PDF] - «О возможностях и рисках моделей фундамента».
arXiv(2021)
[PDF] - «Смена парадигмы в обработке естественного языка».
arXiv(2021)
[PDF] - «Последние достижения в обработке естественного языка с помощью больших предварительно обученных языковых моделей: опрос».
arXiv(2021)
[PDF]
Контрольный показатель
- XNLI : «XNLI: Оценка межъязыкового представления предложений».
EMNLP(2018)
[PDF] [Набор данных] - GLUE : «GLUE: многозадачная платформа для тестирования и анализа для понимания естественного языка».
ICLR(2019)
[Домашняя страница] - SuperGLUE : «SuperGLUE: более надежный эталон для систем понимания языка общего назначения».
NeurIPS(2019)
[Домашняя страница] - ПОДСКАЗКА : «Подсказка: тест для оценки понимания китайского языка».
COLING(2020)
[Домашняя страница] - XTREME : «XTREME: многоязычный многозадачный тест для оценки межъязыкового обобщения».
ICML(2020)
[Домашняя страница] - XGLUE : «XGLUE: новый эталонный набор данных для межъязыковой предварительной подготовки, понимания и генерации».
EMNLP(2020)
[Домашняя страница] - DialoGLUE : «DialoGLUE: эталон понимания естественного языка для диалога, ориентированного на задачу».
arXiv(2020)
[Домашняя страница]
PLM-проектирование
Общий
- GPT : «Улучшение понимания языка посредством генеративной предварительной подготовки».
OpenAI(2018)
[Проект] - GPT-2 : «Языковые модели предназначены для многозадачного обучения без присмотра».
OpenAI(2019)
[Проект] - BERT : «BERT: Предварительная подготовка глубоких двунаправленных преобразователей для понимания языка».
NAACL(2019)
[PDF] [Код] - XLNet : «XLNet: Обобщенная авторегрессионная предварительная тренировка для понимания языка».
NeurIPS(2019)
[PDF] [Код] - SBERT : «Предложение-BERT: встраивание предложений с использованием сиамских BERT-сетей».
ACL(2019)
[PDF] [Код] - UniLM : «Предварительная подготовка унифицированной языковой модели для понимания и генерации естественного языка».
NeurIPS(2019)
[PDF] [Код] - МАССА : «МАССА: предварительная тренировка маскированной последовательности для генерации языка».
ICML(2019)
[PDF] [Код] - Chinese-BERT-wwm : «Предварительная тренировка с маскировкой целых слов для китайского BERT».
arXiv(2019)
[PDF] [Код] - «Предварительное обучение сетей самообслуживания, управляемое Клоузом».
EMNLP(2019)
[PDF] - «У BERT есть рот, и он должен говорить: BERT как языковая модель марковского случайного поля».
Workshop on Methods for Optimizing and Evaluating Neural Language Generation(2019)
[PDF] [Код] - GPT-3 : «Языковые модели изучаются немногими».
NeurIPS(2020)
[PDF] [Код] - T5 : «Изучение границ трансферного обучения с помощью унифицированного преобразователя текста в текст».
JMLR(2020)
[PDF] [Код] - BART : «BART: Предварительная тренировка по последовательному шумоподавлению для генерации, перевода и понимания естественного языка».
ACL(2020)
[PDF] [Код] - Поликодеры : «Поликодеры: архитектуры и стратегии предварительного обучения для быстрой и точной оценки нескольких предложений».
ICLR(2020)
[PDF] - SpanBERT : «SpanBERT: улучшение предварительного обучения путем представления и прогнозирования интервалов».
TACL(2020)
[PDF] [Код] - ЭРНИ 2.0 : «ЭРНИ 2.0: Система непрерывной предварительной подготовки по пониманию языка».
AAAI(2020)
[PDF] [Код] - SemBERT : «BERT с учетом семантики для понимания языка».
AAAI(2020)
[PDF] [Код] - «Использование предварительно обученных контрольных точек для задач генерации последовательностей».
TACL(2020)
[PDF] [Код] - ProphetNet : «ProphetNet: прогнозирование будущей N-граммы для предварительного обучения от последовательности к последовательности».
EMNLP(2020)
[PDF] - UniLMv2 : «UniLMv2: псевдомаскированные языковые модели для предварительного обучения унифицированной языковой модели».
ICML(2020)
[PDF] [Код] - МакБЕРТ : «Возвращаясь к предварительно обученным моделям для обработки китайского естественного языка».
EMNLP(2020)
[PDF] [Код] - MPNet : «MPNet: замаскированная и перестановочная предварительная тренировка по пониманию языка».
arXiv(2020)
[PDF] [Код] - DEBERTA : «DeBERTa: BERT с улучшенным декодированием и распутанным вниманием».
ICLR(2021)
[PDF] [Код] - PALM : «PALM: предварительное обучение языковой модели автокодирования и авторегрессии для генерации с учетом контекста».
EMNLP(2020)
[PDF] - Оптимус : «Оптимус: организация предложений посредством предварительно обученного моделирования скрытого пространства».
EMNLP(2020)
[PDF] [Код] - «Самообучение улучшает предварительную подготовку к пониманию естественного языка».
NAACL(2021)
[PDF] [Код] - CAPT : «Переосмысление автоматического кодирования с шумоподавлением при предварительном обучении языку».
EMNLP(2021)
[PDF] - «Ужасно простые альтернативы предварительному обучению моделированию замаскированного языка».
EMNLP(2021)
[PDF] [Код] - «Извилины и самовнимание: новая интерпретация относительных позиций в предварительно обученных языковых моделях».
ACL(2021)
[PDF] [Код] - ЭРНИ-Док : «ЭРНИ-Док: ретроспективный преобразователь моделирования длинных документов».
ACL(2021)
[PDF] [Код] - «Предварительное обучение универсальному языковому представлению».
ACL(2021)
[PDF] [Код]
Знание
- ЭРНИ (Baidu) : «ЭРНИ: Расширенное представление посредством интеграции знаний».
arXiv(2019)
[PDF] [Код] - KnowBert : «Расширенные знания контекстных представлений слов».
EMNLP(2019)
[PDF] - ЭРНИ (Цинхуа) : «ЭРНИ: расширенное языковое представление с информативными объектами».
ACL(2019)
[PDF] [Код] - COMET : «COMET: преобразователи здравого смысла для автоматического построения графов знаний».
ACL(2019)
[PDF] [Код] - K-BERT : «K-BERT: включение языкового представления с помощью графа знаний».
AAAI(2020)
[PDF] [Код] - WKLM : «Предварительно обученная энциклопедия: языковая модель со слабо контролируемыми знаниями».
ICLR(2020)
[PDF] - ЛЮК : «ЛЮК: Глубоко контекстуализированные представления сущностей с самосознанием, осознающим сущности».
EMNLP(2020)
[PDF] [Код] - K-адаптер : «K-адаптер: внедрение знаний в предварительно обученные модели с помощью адаптеров».
ICLR(2021)
[PDF] - КЕПЛЕР : «КЕПЛЕР: унифицированная модель внедрения знаний и предварительно обученного языкового представления».
TACL(2021)
[PDF] [Код] - RuleBERT : «RuleBERT: обучение мягким правилам предварительно обученных языковых моделей».
EMNLP(2021)
[PDF] [Код] - BeliefBank : «Изучение роли представлений токенов BERT для объяснения результатов проверки предложений».
EMNLP(2021)
[PDF] [Код] - Фраза-BERT : «Фраза-BERT: улучшенное встраивание фраз из BERT с применением к исследованию корпуса».
EMNLP(2021)
[PDF] [Код] - «Предварительно обученная модель с расширенным синтаксисом».
ACL(2021)
[PDF] [Код] - StructFormer : «StructFormer: Совместное неконтролируемое создание зависимости и структуры избирательного округа на основе моделирования языка в маске».
ACL(2021)
[PDF] - ЭРИКА : «ЭРИКА: улучшение понимания сущностей и отношений для предварительно обученных языковых моделей посредством контрастного обучения».
ACL(2021)
[PDF] [Код] - «Структурное руководство для языковых моделей трансформаторов».
ACL(2021)
[PDF] [Код] - HORNET : «HORNET: расширение предварительно обученных языковых представлений гетерогенными источниками знаний».
CIKM(2021)
[PDF] - «Удалить избыточность, сократить неактуально: выборочное введение знаний для предварительной языковой подготовки».
IJCAI(2021)
[PDF]
Многоязычный
- XLM : «Предварительная подготовка межъязыковой языковой модели».
arXiv(2019)
[PDF] [Код] - «Массовое многоязычное встраивание предложений для беспрепятственного межъязыкового перевода и не только».
TACL(2019)
[PDF] [Код] - UDify : «75 языков, 1 модель: универсальный анализ универсальных зависимостей».
EMNLP(2019)
[PDF] [Код] - Unicoder : «Юникдер: универсальный языковой кодировщик, прошедший предварительное обучение с выполнением нескольких межъязыковых задач».
EMNLP(2019)
[PDF] - XLM-R : «Масштабное обучение межъязыковому представлению без присмотра».
ACL(2020)
[PDF] - «Многоязычное выравнивание контекстных представлений слов».
ICLR(2020)
[PDF] - mBART : «Предварительная тренировка многоязычного шумоподавления для нейронного машинного перевода».
TACL(2020)
[PDF] [Код] - mT5 : «mT5: многоязычный предварительно обученный преобразователь текста в текст».
NAACL(2021)
[PDF] [Код] - InfoXLM : «InfoXLM: Информационно-теоретическая основа для предварительного обучения межъязыковой языковой модели».
NAACL(2021)
[PDF] [Код] - «Выделение большого словарного запаса для предварительной тренировки межъязыковой языковой модели».
EMNLP(2021)
[PDF] [Код] - ЭРНИ-М : «ЭРНИ-М: Расширенное многоязычное представление путем согласования межъязыковой семантики с одноязычным корпусом».
EMNLP(2021)
[PDF] [Код] - «Простой геометрический метод межъязыковых лингвистических преобразований с помощью предварительно обученных автоэнкодеров».
EMNLP(2021)
[PDF] - «Стимулирование межъязыкового перевода посредством самообучения с оценкой неопределенности».
EMNLP(2021)
[PDF] - «Насколько хорош ваш токенизатор? Об одноязычной производительности многоязычных языковых моделей».
ACL(2021)
[PDF] [Код] - «Многоязычное предварительное обучение с использованием универсального зависимого обучения».
NeurIPS(2021)
[PDF]
Мультимодальный
- ViLBERT : «ViLBERT: предварительная подготовка не зависящих от задачи визуализирующих представлений для задач зрения и языка».
NeuralIPS(2019)
[PDF] - LXMERT : «LXMERT: Изучение представлений кросс-модального кодера от трансформаторов».
EMNLP(2019)
[PDF] [Код] - VideoBERT : «VideoBERT: совместная модель для обучения видео и языковому представлению»
ICCV(2019)
[PDF] - VisualBERT : «VisualBERT: простая и эффективная основа для зрения и языка».
arXiv(2019)
[PDF] - B2T2 : «Объединение обнаруженных объектов в тексте для визуального ответа на вопрос».
EMNLP(2019)
[PDF] [Код] - ВЛ-БЕРТ : «ВЛ-БЕРТ: Предварительная тренировка общих визуально-лингвистических представлений».
ICLR(2020)
[PDF] [Код] - Unicoder-VL : «Unicoder-VL: универсальный кодировщик для зрения и языка посредством кросс-модального предварительного обучения».
AAAI(2020)
[PDF] - VLP : «Предварительное обучение Unified Vision-Language для субтитров к изображениям и VQA».
AAAI(2020)
[PDF] [Код] - UNITER : «UNITER: универсальное обучение представлению изображений и текста».
ECCV(2020)
[PDF] [Код] - Оскар : «Оскар: Предварительная подготовка, согласованная с объектной семантикой для задач визуального языка».
ECCV(2020)
[PDF] [Код] - «12-в-1: обучение многозадачному видению и языковому представлению».
CVPR(2020)
[PDF] [Код] - ActBERT : «ActBERT: Изучение глобальных-локальных представлений видео-текста».
CVPR(2020)
[PDF] - VLN : «Визуально-языковая навигация с самостоятельными вспомогательными задачами рассуждения».
CVPR(2020)
[PDF] - ВИЛЛА : «Крупномасштабное состязательное обучение обучению зрительному и языковому представлению».
arXiv(2020)
[PDF] [Код] - ImageBERT : «ImageBERT: кросс-модальное предварительное обучение с крупномасштабными данными изображения и текста со слабым контролем».
arXiv(2020)
[PDF] - ВЫРАВНИВАНИЕ : «Расширение обучения визуальному и языковому представлению изображений с помощью контроля зашумленного текста».
ICML(2021)
[PDF] - ClipBERT : «Меньше значит больше: ClipBERT для обучения видео и языка посредством разреженной выборки».
CVPR(2021)
[PDF] [Код] - DALL·E : «Генерация текста в изображение с нулевым выстрелом».
arXiv(2021)
[PDF] [Код] - КЛИП : «Изучение переносимых визуальных моделей под контролем естественного языка».
arXiv(2021)
[PDF] [Код] - IPT : «Преобразователь предварительно обученной обработки изображений».
CVPR(2021)
[PDF] [Код] - CvT : «CvT: введение сверток в преобразователи зрения».
ICCV(2021)
[PDF] [Код] - «Масштабирование обучения визуальному и языковому представлению с помощью наблюдения за зашумленным текстом».
ICML(2021)
[PDF] - TERA : «TERA: Самоконтролируемое обучение представлению преобразовательного кодера для речи».
TASLP(2021)
[PDF] [Код] - CaiT : «Углубляемся в преобразователях изображений».
ICCV(2021)
[PDF] [Код] - ViViT : «ViViT: преобразователь видеовидения».
ICCV(2021)
[PDF] [Код] - VirTex : «VirTex: изучение визуальных представлений на основе текстовых аннотаций».
CVPR(2021)
[PDF] [Код] - M6 : «M6: многозадачный мегатрансформатор из мультимодальности в многомодальность для унифицированной предварительной подготовки».
KDD(2021)
[PDF] - «Исследование интермодальности: визуальный анализ с самовниманием для предварительной тренировки зрения и языка».
NeurIPS(2021)
[PDF] - ГилБЕРТ : «ГилБЕРТ: Предварительная тренировка генеративного видения и языка для модально-неполных визуально-лингвистических задач».
SIGIR(2021)
[PDF]
Поиск информации
- ORQA : «Скрытый поиск для ответов на вопросы открытого домена со слабым контролем».
ACL(2019)
[PDF] - REALM : «REALM: Предварительное обучение языковой модели с расширенным поиском».
arXiv(2020)
[PDF] - RAG : «Генерация с расширенным поиском для наукоемких задач НЛП».
NeurIPS(2020)
[PDF] [Код] - DPR : «Поиск плотных проходов для ответов на вопросы в открытой области».
EMNLP(2020)
[PDF] [Код] - «Использование поиска отрывков с генеративными моделями для ответов на вопросы открытого домена».
EACL(2021)
[PDF] [Код]
Код
- CodeT5 : «CodeT5: унифицированные предварительно обученные модели кодировщика-декодера с учетом идентификаторов для понимания и генерации кода».
EMNLP(2021)
[PDF] [Код] - Кодекс : «Оценка больших языковых моделей, обученных на коде».
arXiv(2021)
[PDF] [Код]
Другие
- ReasonBERT : «ReasonBERT: предварительно обученное рассуждение с дистанционным контролем».
EMNLP(2021)
[PDF] [Код] - «Автокодировщики узких мест предложений на основе языковых моделей трансформаторов».
EMNLP(2021)
[PDF] [Код] - «Умение считать повышает грамотность языковых моделей».
EMNLP(2021)
[PDF] [Код] - EnsLM : «EnsLM: модель ансамблевого языка для разнообразия данных посредством семантической кластеризации».
ACL(2021)
[PDF] [Код] - «Рефлексивное декодирование: помимо однонаправленной генерации с помощью готовых языковых моделей».
ACL(2021)
[PDF] [Код] - БЕРТАК : «БЕРТАК: улучшение языковых моделей на основе преобразователей с помощью состязательно предварительно обученных сверточных нейронных сетей».
ACL(2021)
[PDF] [Код] - «Понимание естественного языка с BERT, сохраняющим конфиденциальность».
CIKM(2021)
[PDF] - BANG : «BANG: объединение авторегрессионной и неавторегрессивной генерации с крупномасштабным предварительным обучением».
ICML(2021)
[PDF] [Код]
PLM-анализ
Знание
- «На что смотрит BERT? Анализ внимания BERT».
BlackBoxNLP(2019)
[PDF] [Код] - «БЕРТ заново открывает классический конвейер НЛП».
ACL(2019)
[PDF] - «Насколько многоязычен многоязычный BERT?».
ACL(2019)
[PDF] - «Структурный зонд для поиска синтаксиса в словесных представлениях».
NAACL(2019)
[PDF] [Код] - «Языковые модели как базы знаний?».
EMNLP(2019)
[PDF] [Код] - «Что BERT узнает о структуре языка?».
ACL(2019)
[PDF] [Код] - «Лингвистические знания и переносимость контекстных представлений».
NAACL(2019)
[PDF] - «Оценка синтаксических способностей BERT».
arXiv(2019)
[PDF] [Код] - «Исследование нейронной сетью понимания аргументов естественного языка»
ACL(2019)
[PDF] - «Насколько контекстуализированы представления слов? Сравнение геометрии вложений BERT, ELMo и GPT-2».
EMNLP(2019)
[PDF] - «Визуализация и измерение геометрии BERT».
NeurIPS(2019)
[PDF] - «Проектирование и интерпретация зондов с задачами управления».
EMNLP(2019)
[PDF] - «Открытый кунжут: знакомство с лингвистическими знаниями BERT».
BlackboxNLP(2019)
[PDF] [Код] - «Что вы узнаете из контекста? Исследование структуры предложения в контекстуализированных представлениях слов».
ICLR(2019)
[PDF] [Код] - «Извлечение знаний на основе здравого смысла на основе предварительно обученных моделей».
EMNLP(2019)
[PDF] - «Знают ли модели НЛП числа? Исследование числовых вложений».
EMNLP(2019)
[PDF] - «О межъязыковой переносимости одноязычных представлений».
ACL(2020)
[PDF] - «Межязычная способность многоязычного BERT: эмпирическое исследование».
ICLR(2020)
[PDF] [Код] - «Чем не является BERT: уроки нового набора психолингвистической диагностики языковых моделей».
TACL(2020)
[PDF] [Код] - «Как много знаний можно вместить в параметры языковой модели?».
EMNLP(2020)
[PDF] [Код] - «Как мы можем узнать, что знают языковые модели?».
TACL(2020)
[PDF] [Код] - «oLMpics – Что фиксирует предварительная подготовка языковой модели» .
TACL(2020)
[PDF] [Код] - «Информационное зондирование с минимальной длиной описания».
EMNLP(2020)
[PDF] [Код] - «Получение реляционных знаний от BERT».
AAAI(2020)
[PDF] - Автоподсказка : «Автоподсказка: извлечение знаний из языковых моделей с помощью автоматически создаваемых подсказок».
EMNLP(2020)
[PDF] [Код] - «Эмерджентная лингвистическая структура в искусственных нейронных сетях, обучаемых методом самоконтроля».
PNAS(2020)
[PDF] - «Оценка здравого смысла в предварительно обученных языковых моделях».
AAAI(2020)
[PDF] [Код] - «Получение реляционных знаний от BERT».
AAAI(2020)
[PDF] - «Редактирование фактических знаний в языковых моделях».
EMNLP(2021)
[PDF] [Код] - «Сколько данных для предварительной подготовки необходимо языковым моделям для изучения синтаксиса?».
EMNLP(2021)
[PDF] - «Мачехи злые, а ученые претенциозные: что о вас узнают предварительно обученные языковые модели?».
EMNLP(2021)
[PDF] [Код] - «Вложив слова в рот BERT: навигация по контекстуализированным векторным пространствам с помощью псевдослов».
EMNLP(2021)
[PDF] [Код] - «Влияние частоты на изучение синтаксических правил в преобразователях».
EMNLP(2021)
[PDF] [Код] - «Изучение роли представлений токенов BERT для объяснения результатов проверки предложений».
EMNLP(2021)
[PDF] [Код] - «Чему удивляется BERT? Послойное обнаружение языковых аномалий».
ACL(2021)
[PDF] [Код] - «Неявное представление значения в модели нейронного языка».
ACL(2021)
[PDF] [Код] - «Знающая или образованная догадка? Пересмотр языковых моделей как баз знаний».
ACL(2021)
[PDF] [Код]
Надежность
- «Универсальные состязательные триггеры для атаки и анализа НЛП».
EMNLP(2019)
[PDF] [Код] - «Предварительно обученные трансформаторы повышают надежность вне распределения».
ACL(2020)
[PDF] [Код] - BERT-ATTACK : «BERT-ATTACK: состязательная атака на BERT с использованием BERT».
EMNLP(2020)
[PDF] [Код] - «Действительно ли BERT надежный? Прочная основа для атак на естественном языке при классификации и последующем анализе текста».
AAAI(2020)
[PDF] [Код] - «Дьявол кроется в деталях: простые приемы улучшают систематическое обобщение трансформаторов».
EMNLP(2021)
[PDF] [Код] - «Сортировка среди шума: проверка надежности обработки информации в предварительно обученных языковых моделях».
EMNLP(2021)
[PDF] [Код]
Разреженность
- «Шестнадцать голов действительно лучше, чем одна?».
NeurIPS(2019)
[PDF] [Код] - «Анализ внимания к себе нескольких голов: специализированные головы выполняют тяжелую работу, остальное можно сократить».
ACL(2019)
[PDF] [Код] - «Раскрытие темных секретов BERT».
EMNLP(2019)
[PDF] - «Гипотеза лотерейных билетов для предварительно обученных сетей BERT».
NeurIPS(2020)
[PDF] [Код] - «Когда BERT играет в лотерею, все билеты выигрывают».
EMNLP(2020)
[PDF] [Код]
Другие
- «Законы масштабирования для моделей нейронного языка».
arXiv(2020)
[PDF] - «Извлечение обучающих данных из больших языковых моделей».
arXiv(2020)
[PDF] [Код] - «Об опасностях стохастических попугаев: могут ли языковые модели быть слишком большими??».
FACCT(2021)
[PDF] - «Извлечение обучающих данных из больших языковых моделей».
USENIX(2021)
[PDF] [Код] - «Моделирование языка в масках и гипотеза распределения: порядок слов имеет значение, предварительная подготовка для маленьких».
EMNLP(2021)
[PDF] [Код] - «Эффекты роста нормы параметров во время тренировки трансформатора: индуктивное смещение из-за градиентного спуска».
EMNLP(2021)
[PDF] [Код] - «Дискретизированные интегрированные градиенты для объяснения языковых моделей».
EMNLP(2021)
[PDF] [Код] - «Действительно ли языковые модели дальнего действия используют долгосрочный контекст?».
EMNLP(2021)
[PDF] - «Конкуренция по поверхностной форме: почему ответ с наибольшей вероятностью не всегда правильный».
EMNLP(2021)
[PDF] [Код] - «Включение остаточных слоев и слоев нормализации в анализ моделей замаскированного языка».
EMNLP(2021)
[PDF] [Код] - «Длина последовательности - это область: переобучение на основе длины в моделях трансформаторов».
EMNLP(2021)
[PDF] - «Являются ли предварительно обученные свертки лучше, чем предварительно обученные трансформаторы?».
ACL(2021)
[PDF] - «Позиционные артефакты распространяются через замаскированные языковые модели».
ACL(2021)
[PDF] - «Когда вам нужны миллиарды слов предтренировочных данных?».
ACL(2021)
[PDF] [Код] - «BERT для НЛП — это то же самое, что AlexNet для CV: могут ли предварительно обученные языковые модели идентифицировать аналогии?».
ACL(2021)
[PDF] [Код] - «Исследование индуктивного смещения моделей нейронного языка с помощью искусственных языков».
ACL(2021)
[PDF] [Код] - «Почему предварительно обученные языковые модели помогают в последующих задачах? Анализ головы и быстрая настройка».
NeurIPS(2021)
[PDF]
Эффективный PLM
Обучение
- RoBERTa : «RoBERTa: надежно оптимизированный подход к предварительному обучению BERT».
arXiv(2019)
[PDF] [Код] - «Эффективное обучение BERT путем постепенного суммирования».
ICML(2019)
[PDF] [Код] - Мегатрон-LM : «Мегатрон-LM: обучение языковых моделей с несколькими миллиардами параметров с использованием параллелизма моделей».
arXiv(2019)
[PDF] [Код] - ELECTRA : «ELECTRA: предварительное обучение кодировщиков текста как дискриминаторов, а не генераторов».
ICLR(2020)
[PDF] [Код] - «Массовая пакетная оптимизация для глубокого обучения: обучение BERT за 76 минут».
ICLR(2020)
[PDF] [Код] - GShard : «GShard: масштабирование гигантских моделей с помощью условных вычислений и автоматического сегментирования».
arXiv(2020)
[PDF] - Админ : «Понимание сложности обучения трансформаторов».
EMNLP(2020)
[PDF] [Код] - ZeRO : «ZeRO: оптимизация памяти для обучения моделей с триллионом параметров».
SC20: International Conference for High Performance Computing, Networking, Storage and Analysis
[PDF] [Код] - Переключающие трансформаторы : «Переключающие трансформаторы: масштабирование до моделей с триллионом параметров с простой и эффективной разреженностью».
arXiv(2021)
[PDF] [Код] - «Как обучать BERT с академическим бюджетом».
EMNLP(2021)
[PDF] - «Оптимизация более глубоких преобразователей на небольших наборах данных».
ACL(2021)
[PDF] [Код] - «EarlyBERT: эффективное обучение BERT с помощью лотерейных билетов раннего бронирования».
ACL(2021)
[PDF] [Код]
Вывод
- «БЕРТ теряет терпение: быстрый и надежный вывод с ранним выходом».
NeurIPS(2020)
[PDF] [Код] - GAML-BERT : «GAML-BERT: улучшение раннего выхода из BERT за счет взаимного обучения с градиентным выравниванием».
EMNLP(2021)
[PDF] - «Эффективные языковые модели ближайшего соседа».
EMNLP(2021)
[PDF] [Код] - GhostBERT : «GhostBERT: создайте больше функций с помощью дешевых операций для BERT».
ACL(2021)
[PDF] [Код] - LeeBERT : «LeeBERT: изучен ранний выход для BERT с межуровневой оптимизацией».
ACL(2021)
[PDF] - «Трансформатор с адаптацией к длине: тренируйтесь один раз с уменьшением длины, используйте в любое время с поиском».
ACL(2021)
[PDF] [Код] - «Преобразование знаний из BERT в простые полностью связанные нейронные сети для эффективного вертикального поиска».
CIKM(2021)
[PDF]
Сжатие
- DistilBERT : «DistilBERT, усовершенствованная версия BERT: меньше, быстрее, дешевле и легче».
arXiv(2019)
[PDF] [Код] - ДОК : «Обработка знаний пациентов для сжатия модели BERT».
EMNLP(2019)
[PDF] [Код] - «Переработка знаний о конкретных задачах из BERT в простые нейронные сети».
arXiv(2019)
[PDF] - Q8BERT : «Q8BERT: квантованный 8-битный BERT».
5th Workshop on Energy Efficient Machine Learning and Cognitive Computing - NeurIPS 2019
[PDF] - АЛЬБЕРТ : «АЛЬБЕРТ: Lite BERT для самостоятельного изучения языковых представлений».
ICLR(2020)
[PDF] [Код] - TinyBERT : «TinyBERT: использование BERT для понимания естественного языка».
EMNLP(2020)
[PDF] [Код] - Layerdrop : «Уменьшение глубины трансформатора по требованию с помощью структурированного отключения».
ICLR(2020)
[PDF] [Код] - Q-BERT : «Q-BERT: квантование BERT сверхнизкой точности на основе гессиана».
AAAI(2020)
[PDF] - MobileBERT : «MobileBERT: компактный BERT, не зависящий от задачи, для устройств с ограниченными ресурсами».
ACL(2020)
[PDF] [Код] - «Сжатие BERT: изучение влияния сокращения веса на трансферное обучение».
5th Workshop on Representation Learning for NLP(2020)
[PDF] [Код] - MiniLM : «MiniLM: глубокая дистилляция внутреннего внимания для независимого от задачи сжатия предварительно обученных трансформаторов».
arXiv(2020)
[PDF] [Код] - FastBERT : «FastBERT: самоочищающийся BERT с адаптивным временем вывода».
ACL(2020)
[PDF] [Код] - DeeBERT : «DeeBERT: динамический ранний выход для ускорения вывода BERT».
ACL(2020)
[PDF] [Код] - «Сжатие крупномасштабных моделей на основе трансформаторов: практический пример BERT».
TACL(2021)
[PDF] - «Выигрыш в лотерею с постоянным разбросом».
NeurIPS(2020)
[PDF] [Код] - SqueezeBERT : «SqueezeBERT: Чему компьютерное зрение может научить НЛП об эффективных нейронных сетях?».
SustaiNLP(2020)
[PDF] - Аудио АЛЬБЕРТ : «Аудио Альберт: Lite Bert для самостоятельного обучения представлению звука».
SLT(2021)
[PDF] [Код] - T2R : «Точная настройка предварительно обученных трансформаторов в RNN».
EMNLP(2021)
[PDF] [Код] - «За пределами сохраненной точности: оценка лояльности и надежности сжатия BERT».
EMNLP(2021)
[PDF] [Код] - Meta-KD : «Meta-KD: Платформа дистилляции метазнаний для сжатия языковых моделей в разных доменах».
ACL(2021)
[PDF] [Код] - «Супербилеты в предварительно обученных языковых моделях: от сжатия модели к улучшению обобщения».
ACL(2021)
[PDF] [Код] - BinaryBERT : «BinaryBERT: расширяя границы квантования BERT».
ACL(2021)
[PDF] [Код] - AutoTinyBERT : «AutoTinyBERT: автоматическая оптимизация гиперпараметров для эффективных предварительно обученных языковых моделей».
ACL(2021)
[PDF] [Код] - «Предельная полезность уменьшается: изучение минимальных знаний для дистилляции знаний BERT».
ACL(2021)
[PDF] [Код] - «Включение облегченной точной настройки для предварительно обученного сжатия языковой модели на основе операторов матричного произведения».
ACL(2021)
[PDF] [Код] - NAS-BERT : «NAS-BERT: независимое от задачи сжатие BERT с адаптивным размером и поиском по нейронной архитектуре».
KDD(2021)
[PDF]
PLM-адаптация
Двухэтапный
- «Кодеры предложений на STILT: дополнительное обучение промежуточным задачам с размеченными данными».
arXiv(2018)
[PDF] [Код] - «Как точно настроить BERT для классификации текста?».
CCL(2019)
[PDF] - «Не прекращайте предварительное обучение: адаптируйте языковые модели к областям и задачам».
ACL(2020)
[PDF] [Код] - «Переносное обучение промежуточных задач с предварительно обученными языковыми моделями: когда и почему это работает?».
ACL(2020)
[PDF] - «Чему заниматься предварительно? Эффективный выбор промежуточных задач».
EMNLP(2021)
[PDF] [Код] - «О влиянии политики маскировки на промежуточную предварительную подготовку».
EMNLP(2021)
[PDF] - TADPOLE : «TADPOLE: Предварительное обучение, адаптированное к задачам, посредством обнаружения AnOmaLy».
EMNLP(2021)
[PDF]
Многозадачность
- MT-DNN : «Многозадачные глубокие нейронные сети для понимания естественного языка».
ACL(2019)
[PDF] [Код] - «БАМ! Новые многозадачные сети для понимания естественного языка».
ACL(2019)
[PDF] [Код] - «Улучшение многозадачных глубоких нейронных сетей посредством дистилляции знаний для понимания естественного языка».
arXiv(2019)
[PDF] [Код] - ГрадТС : «ГрадТС: градиентный метод автоматического выбора вспомогательных задач на основе трансформаторных сетей».
EMNLP(2021)
[PDF] - «Что у тебя в голове? Возникающее поведение в моделях многозадачных трансформаторов».
EMNLP(2021)
[PDF] - MTAdam : «MTAdam: автоматическая балансировка условий многократной потери обучения».
EMNLP(2021)
[PDF] - Маппет : «Маппет: масштабные многозадачные представления с предварительной точной настройкой».
EMNLP(2021)
[PDF] - «Гипотеза стволовых клеток: дилемма многозадачного обучения с помощью преобразовательных кодировщиков».
EMNLP(2021)
[PDF] [Код] - BERTGen : «BERTGen: Многозадачная генерация с помощью BERT».
ACL(2021)
[PDF] [Код] - «Параметрически эффективная многозадачная настройка трансформаторов через общие гиперсети».
ACL(2021)
[PDF] [Код]
Адаптер
- «BERT и PAL: проецируемые уровни внимания для эффективной адаптации в многозадачном обучении».
ICML(2019)
[PDF] [Код] - Адаптер : «Обучение с эффективным переносом параметров для НЛП».
ICML(2019)
[PDF] [Код] - AdapterDrop : «AdapterDrop: эффективность адаптеров в трансформаторах».
EMNLP(2021)
[PDF] - «Об эффективности настройки на основе адаптера для адаптации предварительно обученной языковой модели».
ACL(2021)
[PDF] - «Научимся создавать адаптеры для конкретных задач на основе описания задачи».
ACL(2021)
[PDF] [Код]
Быстрый
- ПЭТ : «Использование вопросов-замыканий для классификации краткого текста и вывода на естественном языке».
EACL(2021)
[PDF] [Код] - «Важен не только размер: модели малого языка также мало учатся».
NAACL(2021)
[PDF] [Код] - «Настройка префиксов: оптимизация непрерывных подсказок для генерации».
arXiv(2021)
[PDF] - LM-BFF : «Как сделать предварительно обученные языковые модели более эффективными для обучения с помощью нескольких попыток».
ACL(2021)
[PDF] [Код] - «Что делает контекстные примеры хорошими для GPT-3?».
arXiv(2021)
[PDF] [Код] - «Сила масштаба для оперативной настройки с эффективным использованием параметров».
EMNLP(2021)
[PDF] [Код] - «Точно настроенные языковые модели — это ученики с нулевым шансом».
arXiv(2021)
[PDF] - «Калибровка перед использованием: повышение производительности языковых моделей за несколько шагов».
ICML(2021)
[PDF] [Код] - TransPrompt : «TransPrompt: на пути к системе автоматически передаваемых подсказок для классификации фрагментов текста».
EMNLP(2021)
[PDF] [Код] - SFLM : «Возвращаясь к самообучению для кратковременного изучения языковой модели».
EMNLP(2021)
[PDF] [Код] - ADAPET : «Улучшение и упрощение обучения использованию шаблонов».
EMNLP(2021)
[PDF] [Код]
Другие
- «Настраивать или не настраивать? Адаптация предварительно обученных представлений к различным задачам».
RepL4NLP(2019)
[PDF] - «Поразительно простой подход к трансферному обучению на основе предварительно обученных языковых моделей».
NAACL(2019)
[PDF] [Код] - «Точная настройка предварительно обученных языковых моделей: весовая инициализация, порядок данных и ранняя остановка».
arXiv(2020)
[PDF] - SMART : «SMART: надежная и эффективная точная настройка предварительно обученных моделей естественного языка посредством принципиальной регуляризованной оптимизации».
EMNLP(2020)
[PDF] [Код] - «Возвращаясь к точной настройке BERT с несколькими выборками».
ICLR(2021)
[PDF] - Mirror-BERT : «Быстро, эффективно и с самоконтролем: преобразование замаскированных языковых моделей в универсальные лексические кодировщики и кодировщики предложений».
EMNLP(2021)
[PDF] [Код] - «Предварительное обучение или аннотирование? Адаптация предметной области с ограниченным бюджетом».
EMNLP(2021)
[PDF] [Код] - AVOcaDo : «AVocaDo: Стратегия адаптации словарного запаса к нисходящей области».
EMNLP(2021)
[PDF] - НАСТРОЙКА ДЕТЕЙ : «Воспитание ребенка на большой языковой модели: на пути к эффективной и обобщаемой точной настройке».
EMNLP(2021)
[PDF] [Код] - «Укрощение предварительно обученных языковых моделей с помощью N-граммных представлений для адаптации предметной области с низким уровнем ресурсов».
ACL(2021)
[PDF] [Код] - LexFit : «LexFit: лексическая точная настройка предварительно обученных языковых моделей».
ACL(2021)
[PDF] [Код] - «Выбор информативных контекстов улучшает точную настройку языковой модели».
ACL(2021)
[PDF] [Код] - «Эмпирическое исследование оптимизации гиперпараметров для точной настройки предварительно обученных языковых моделей».
ACL(2021)
[PDF] [Код] - «Как следует настроить предварительно обученные языковые модели для обеспечения состязательной устойчивости?».
NeurIPS(2021)
[PDF] [Код]