Этот список статей посвящен теоретическому и эмпирическому анализу языковых моделей, особенно больших языковых моделей (LLM). Статьи в этом списке исследуют поведение обучения, способность к обобщению и другие свойства языковых моделей посредством теоретического анализа, эмпирического анализа или их комбинации.
Объем этого списка:
Ограничения этого списка:
Статистика этого списка бумаг:
Если у вас есть какие-либо предложения или вы хотите внести свой вклад, пожалуйста, не стесняйтесь открыть проблему или запрос на включение.
Подробную информацию о том, как внести свой вклад, можно найти в правилах внесения вклада.
Вы также можете поделиться своими мыслями и обсудить их с другими в обсуждениях.
Примечание
Для версии без категории, пожалуйста, обратитесь сюда.
^ back to top ^
Категории, посвященные различным явлениям, свойствам и поведению, наблюдаемым в моделях большого языка (LLM) и моделях на основе преобразователей.
^ back to top ^
Статьи, посвященные теоретическому и эмпирическому анализу контекстного обучения в больших языковых моделях.
Доказуемое контекстное обучение с помощью трансформаторов: практический пример линейной регрессии [ссылка на документ] 4 ноября 2024 г.
Дэйк Бу; Вэй Хуан; Энди Хан; Ацуши Нитанда; Тайджи Судзуки; Цинфу Чжан; Хау-Сан Вонг
Предварительно обученный преобразователь эффективно изучает низкоразмерные целевые функции в контексте [ссылка на статью] 4 ноября 2024 г.
Казусато Око; Юджин Сон; Тайджи Судзуки; Денни Ву
На пути к пониманию контекстного и весового обучения [ссылка на документ] 30 октября 2024 г.
Брайан Чан; Синьи Чен; Андраш Дьёрдь; Дейл Шурманс
О роли глубины и циклов в контекстном обучении с разнообразием задач [ссылка на документ] 29 октября 2024 г.
Хашаяр Гатмиры; Никундж Саунши; Сашанк Дж. Редди; Стефани Джегелька; Санджив Кумар
Механизмы обработки символов для контекстного обучения в трансформаторных сетях [ссылка на документ] 23 октября 2024 г.
Павел Смоленский; Роланд Фернандес; Чжэнхао Герберт Чжоу; Маттиа Оппер; Цзяньфэн Гао
Могут ли трансформаторы в контексте изучить поведение линейной динамической системы? [ссылка на документ] 21 октября 2024 г.
Усман Акрам; Харис Викало
Байесовские законы масштабирования для контекстного обучения [ссылка на документ] 21 октября 2024 г.
Арьяман Арора; Дэн Джурафски; Кристофер Поттс; Ной Д. Гудман
Доказуемое контекстное обучение для смеси линейных регрессий с использованием трансформаторов [ссылка на документ] 18 октября 2024 г.
Яньхао Цзинь; Кришнакумар Баласубраманян; Лифенг Лай
Контекстное обучение и бритва Оккама [ссылка на документ] 17 октября 2024 г.
Эрик Эльмознино; Том Марти; Теджас Касетти; Лео Ганьон; Сартак Миттал; Махан Фатхи; Дханья Шридхар; Гийом Лажуа
Масштабирование контекста и масштабирование задач в контекстном обучении [ссылка на документ] 16 октября 2024 г.
Амирхесам Абедсолтан; Адитьянараянан Радхакришнан; Цзинфэн Ву; Михаил Белкин
Обход экспоненциальной зависимости: петлевые трансформаторы эффективно обучаются в контексте с помощью многошагового градиентного спуска [ссылка на документ] 15 октября 2024 г.
Бо Чен; Сяоюй Ли; Инъюй Лян; Чжэнмэй Ши; Чжао Сун
Как в трансформаторах реализованы индукционные головки: анализ аппроксимации и оптимизации [ссылка на документ] 15 октября 2024 г.
Мингзе Ван; Жоси Юй; Вэйнан Э; Лэй Ву
Об обучающей сходимости трансформаторов для контекстной классификации [ссылка на документ] 15 октября 2024 г.
Вэй Шен; Жуйда Чжоу; Цзин Ян; Конг Шен
Трансформаторы изучают цепи Маркова переменного порядка в контексте [ссылка на документ] 07.10.2024
Жуйда Чжоу; Чао Тянь; Сухас Диггави
Пересмотр схемы вывода контекстного обучения в больших языковых моделях [ссылка на документ] 6 октября 2024 г.
Хакадзе Чо; Марико Като; Ёсихиро Сакаи; Наоя Иноуэ
Обученные классификаторы трансформаторов обобщают и демонстрируют благоприятное переобучение в контексте [ссылка на документ] 2024-10-02
Спенсер Фрай; Галь Варди
Трансформаторы обрабатывают эндогенность в контекстной линейной регрессии [ссылка на документ] 2024-10-02
Хаодун Лян; Кришнакумар Баласубраманян; Лифенг Лай
Представляем индукционные головки: доказуемая динамика обучения и обучение функциям трансформаторов [ссылка на документ] 10 сентября 2024 г.
Сию Чен; Хиджун Шин; Тяньхао Ван; Чжуоран Ян
Обучение против извлечения: роль контекстных примеров в регрессии с помощью LLM [ссылка на документ] 6 сентября 2024 г.
Алиакбар Нафар; Кристен Брент Венейбл; Париса Корджамшиди
Трансформаторы — это минимаксные оптимальные непараметрические контекстные обучающие устройства [ссылка на документ] 22 августа 2024 г.
Юнона Ким; Тай Накамаки; Тайджи Судзуки
Запоминание в контекстном обучении [ссылка на документ] 21 августа 2024 г.
Шахриар Гольчин; Михай Сурдяну; Стивен Бетард; Эдуардо Бланко; Эллен Рилофф
Контекстное обучение с представлениями: контекстное обобщение обученных преобразователей [ссылка на документ] 19 августа 2024 г.
Тонг Ян; Ю Хуан; Инбинь Лян; Юэцзе Чи
Быстрая атрибуция наборов обучающих данных посредством контекстного обучения [ссылка на документ] 14 августа 2024 г.
Милад Фотоуи; Мохаммад Таха Бахадори; Олувасейи Фейисетан; Пайман Арабшахи; Дэвид Хекерман
Как трансформеры используют внимание нескольких голов в контекстном обучении? Практический пример разреженной линейной регрессии [ссылка на документ] 8 августа 2024 г.
Синву Чен; Лэй Чжао; Дифан Цзоу
Трансформеры — универсальные ученики, работающие в контексте [ссылка на документ] 02 августа 2024 г.
Такаши Фуруя; Мартен В. де Хооп; Габриэль Пейре
Полиномиальная регрессия как задача для понимания контекстного обучения посредством точной настройки и выравнивания [ссылка на документ] 27 июля 2024 г.
Макс Уилкоксон; Мортен Свендгард; Риа Доши; Дилан Дэвис; Рейя Вир; Анант Сахай
Раскрытие контекстного обучения: система координат для понимания механизма ее работы [ссылка на документ] 24 июля 2024 г.
Аньхао Чжао; Фанхуа Е; Цзиньлань Фу; Сяоюй Шен
Однослойный трансформатор доказуемо изучает одного ближайшего соседа в контексте [ссылка на документ] 24 июля 2024 г.
Цзихао Ли; Юань Цао; Чэн Гао; Йихан Хэ; Хан Лю; Джейсон М. Клусовски; Цзяньцин Фань; Мэнди Ван
Когда преобразователи могут композиционно обобщать в контексте? [ссылка на документ] 17 июля 2024 г.
Сейджин Кобаяши; Саймон Шуг; Ясир Акрам; Флориан Редхардт; Йоханнес фон Освальд; Разван Пашкану; Гийом Лажуа; Жоао Сакраменто
Контекстное обучение с использованием преобразовательных нейронных процессов [ссылка на документ] 19 июня 2024 г.
Мэтью Эшман; Кристиана Диакону; Адриан Веллер; Ричард Э. Тернер
Исследование границ принятия решений при контекстном обучении в больших языковых моделях [ссылка на документ] 17 июня 2024 г.
Сиян Чжао; Тунг Нгуен; Адитья Гровер
Государственный суп: контекстное обучение, извлечение и смешивание навыков [ссылка на документ] 12 июня 2024 г.
Мацей Пьоро; Мацей Волчик; Разван Пашкану; Йоханнес фон Освальд; Жоао Сакраменто
Оценка частоты галлюцинаций генеративного ИИ [ссылка на документ] 11 июня 2024 г.
Эндрю Джессон; Николас Бельтран-Велес; Квентин Чу; Света Карлекар; Янник Коссен; Ярин Гал; Джон П. Каннингем; Дэвид Блей
BERT — это генеративные методы обучения в контексте [ссылка на документ] 7 июня 2024 г.
Дэвид Сэмюэл
Повышение эффективности контекстного обучения с помощью сокращения веса на основе SVD: теоретическая перспектива [ссылка на документ] 6 июня 2024 г.
Синьхао Яо; Сяолинь Ху; Шэньчжи Ян; Юн Лю
Чему изучают языковые модели в контексте? Гипотеза структурированной задачи [ссылка на документ] 6 июня 2024 г.
Цзяода Ли; Ифань Хоу; Мринмая Сачан; Райан Коттерелл
Точное преобразование контекстного обучения в весовые коэффициенты модели в преобразователях линеаризованного внимания [ссылка на документ] 5 июня 2024 г.
Брайан К. Чен; Тяньян Ху; Хуэй Цзинь; Хви Куан Ли; Кенджи Кавагути
Обучение гроку: появление контекстного обучения и композиции навыков в модульных арифметических задачах [ссылка на документ] 4 июня 2024 г.
Тянью Хэ; Даршил Доши; Аритра Дас; Андрей Громов
Почему более крупные языковые модели осуществляют контекстное обучение по-другому? [ссылка на документ] 30 мая 2024 г.
Чжэнмэй Ши; Цзюньи Вэй; Чжоянь Сюй; Инъюй Лян
Достаточно ли контекстного обучения для обучения в магистратуре? [ссылка на документ] 30 мая 2024 г.
Хао Чжао; Максим Андрющенко; Франческо Кроче; Николя Фламмарион
Обязательно ли изучение правильных скрытых переменных улучшает контекстное обучение? [ссылка на документ] 29 мая 2024 г.
Сартак Миттал; Эрик Эльмознино; Лео Ганьон; Сангни Бхардвадж; Дханья Шридхар; Гийом Лажуа
Теория контекстного обучения в трансформаторах [ссылка на документ] 29 мая 2024 г.
Ифэй Ван; Юян Ву; Цзэминг Вэй; Стефани Джегелька; Исен Ван
О меза-оптимизации в авторегрессионно обученных трансформаторах: появление и возможности [ссылка на документ] 27 мая 2024 г.
Чэнью Чжэн; Вэй Хуан; Жунчжэнь Ван; Гоцян Ву; Цзюнь Чжу; Чунсюань Ли
Контекстное обучение Transformer для категориальных данных [ссылка на документ] 27 мая 2024 г.
Аарон Т. Ван; Рикардо Энао; Лоуренс Кэрин
Автоматическая адаптация предметной области с помощью преобразователей в контекстном обучении [ссылка на документ] 27 мая 2024 г.
Рюитиро Хатая; Кота Мацуи; Масааки Имаидзуми
Унификация выбора и сжатия демонстраций для контекстного обучения [ссылка на документ] 27 мая 2024 г.
Цзюнь Гао
О шумоустойчивости контекстного обучения для генерации текста [ссылка на документ] 27 мая 2024 г.
Хунфу Гао; Фейпэн Чжан; Вэньюй Цзян; Цзюнь Шу; Фэн Чжэн; Хунсинь Вэй
Обучение MLP в контексте [ссылка на документ] 24 мая 2024 г.
Уильям Л. Тонг; Дженгиз Пехлеван
К лучшему пониманию способности к контекстному обучению на основе количественной оценки неопределенности в контексте [ссылка на документ] 24 мая 2024 г.
Шан Лю; Чжунцзе Цай; Гуантин Чен; Сяочэн Ли
Могут ли петлевые трансформаторы научиться реализовывать многоступенчатый градиентный спуск для контекстного обучения? [ссылка на документ] 2024-05-02
Хашаяр Гатмиры; Никундж Саунши; Сашанк Дж. Редди; Стефани Джегелька; Санджив Кумар
Представлено контекстное обучение функциональным классам для трансформаторов [ссылка на документ] 2 мая 2024 г.
Чжицзе Ван; Бо Цзян; Шуай Ли
Контекстное обучение с использованием длинноконтекстных моделей: углубленное исследование [ссылка на документ] 30 апреля 2024 г.
Аманда Берч; Маор Ивги; Ури Алон; Джонатан Берант; Мэтью Р. Гормли; Грэм Нойбиг
Что должно быть правильно для индукционной головки? Механистическое исследование схем контекстного обучения и их формирования [ссылка на статью] 10 апреля 2024 г.
Адитья К. Сингх; Тед Московиц; Феликс Хилл; Стефани Сай Чан; Эндрю М. Сакс
Требуется ли внимание для ICL? Исследование взаимосвязи между архитектурой модели и способностью к контекстному обучению [ссылка на документ] 1 апреля 2024 г.
Иван Ли; Нань Цзян; Тейлор Берг-Киркпатрик
Динамика тренировки внимания Softmax с несколькими головами для контекстного обучения: возникновение, конвергенция и оптимальность [ссылка на документ] 29 февраля 2024 г.
Сию Чен; Хиджун Шин; Тяньхао Ван; Чжуоран Ян
Как трансформаторы изучают причинную структуру с помощью градиентного спуска [ссылка на документ] 22 февраля 2024 г.
Эшаан Ничани; Алекс Дамиан; Джейсон Д. Ли
Контекстное обучение блока линейного трансформатора: преимущества компонента MLP и одношаговой инициализации GD [ссылка на документ] 22 февраля 2024 г.
Жуйци Чжан; Цзинфэн Ву; Питер Л. Бартлетт
Определение глав семантической индукции для понимания контекстного обучения [ссылка на документ] 20 февраля 2024 г.
Цзе Рен; Ципэн Го; Ханг Ян; Дунгруй Лю; Сипэн Цю; Дахуа Линь
Как трансформаторы выполняют контекстное авторегрессионное обучение? [ссылка на документ] 8 февраля 2024 г.
Майкл Э. Сандер; Раджа Гирьес; Тайджи Судзуки; Матье Блондель; Габриэль Пейре
Может ли Мамба научиться учиться? Сравнительное исследование задач контекстного обучения [ссылка на документ] 6 февраля 2024 г.
Чонхо Пак; Пак Джесон; Чжэян Сюн; Наён Ли; Джэвунг Чо; Самет Оймак; Кангвук Ли; Димитрис Папалиопулос
Теоретико-информационный анализ контекстного обучения [ссылка на документ] 28 января 2024 г.
Хон Джун Чжон; Джейсон Д. Ли; Ци Лэй; Бенджамин Ван Рой
Временный характер возникающего контекстного обучения в трансформерах [ссылка на документ] 11 декабря 2023 г.
Адитья К. Сингх; Стефани Сай Чан; Тед Московиц; Эрин Грант; Эндрю М. Сакс; Феликс Хилл
Функции контекстного обучения с различным количеством минимумов [ссылка на документ] 21 ноября 2023 г.
Дэвид Ониани; Яншань Ван
Исследование взаимосвязи между контекстным обучением и настройкой инструкций [ссылка на документ] 17 ноября 2023 г.
Ханью Дуань; Исюань Тан; И Ян; Ахмед Аббаси; Кар Ян Там
Когда контекстное обучение терпит неудачу и почему? Исследование задач со сложной спецификацией [ссылка на документ] 15 ноября 2023 г.
Хао Пэн; Сяочжи Ван; Цзяньхуэй Чен; Вейкай Ли; Юньцзя Ци; Зиму Ван; Чжили Ву; Кайшэн Цзэн; Бинь Сюй; Лэй Хоу; Хуанзи Ли
Контекстное обучение обобщает, но не всегда надежно: случай синтаксиса [ссылка на документ] 13 ноября 2023 г.
Аарон Мюллер; Альберт Вебсон; Джексон Петти; Тал Линзен
Трансформаторы учатся реализовывать предварительно обусловленный градиентный спуск для контекстного обучения [ссылка на документ] 09.11.2023
Кванджун Ан; Сян Чэн; Хади Данешманд; Суврит Сра
Трансформеры изучают методы оптимизации высшего порядка для контекстного обучения: исследование с использованием линейных моделей [ссылка на документ] 26 октября 2023 г.
Дэцин Фу; Тянь-Ци Чен; Робин Цзя; Вацал Шаран
Контекстное обучение создает векторы задач [ссылка на документ] 24 октября 2023 г.
Рои Хендель; Мор Гева; Амир Глоберсон
Векторы функций в больших языковых моделях [ссылка на документ] 23 октября 2023 г.
Эрик Тодд; Миллисент Л. Ли; Арнаб Сен Шарма; Аарон Мюллер; Байрон К. Уоллес; Дэвид Бау
Контекстное обучение с помощью Transformer действительно эквивалентно контрастному шаблону обучения [ссылка на документ] 19 октября 2023 г.
Жуйфэн Рен; Юн Лю
Обученные трансформаторы изучают линейные модели в контексте [ссылка на документ] 19 октября 2023 г.
Жуйци Чжан; Спенсер Фрай; Питер Л. Бартлетт
Как трансформеры обучаются в контексте, помимо простых функций? Практический пример обучения с помощью представлений [ссылка на документ] 16 октября 2023 г.
Тяньюй Го; Вэй Ху; Сон Мэй; Хуан Ван; Цайминг Сюн; Сильвио Саварезе; Ю Бай
Понимание контекстного обучения в трансформаторах и LLM путем обучения дискретным функциям [ссылка на документ] 13 октября 2023 г.
Сатвик Бхаттамишра; Аркил Патель; Фил Блансом; Варун Канаде
Сколько задач предварительной подготовки необходимо для контекстного изучения линейной регрессии? [ссылка на документ] 13 октября 2023 г.
Цзинфэн Ву; Дифан Цзоу; Цзысян Чен; Владимир Браверман; Цюаньцюань Гу; Питер Бартлетт
Контекстное обучение изучает взаимосвязи между метками, но не является традиционным обучением [ссылка на документ] 13 октября 2023 г.
Янник Коссен; Ярин Гал; Том Рейнфорт
Конвергенция трансформаторов в контексте [ссылка на документ] 13 октября 2023 г.
Ю Хуан; Юань Чэн; Инбинь Лян
Контекстное обучение через байесовскую призму [ссылка на документ] 13 октября 2023 г.
Мадхур Панвар; Кабир Ахуджа; Навин Гоял
Действительно ли предварительно обученные трансформеры обучаются в контексте с помощью градиентного спуска? [ссылка на документ] 12 октября 2023 г.
Линфэн Шен; Ааюш Мишра; Дэниел Хашаби
Чему и как учится контекстное обучение? Усреднение, параметризация и обобщение байесовской модели [ссылка на документ] 10 октября 2023 г.
Юфэн Чжан; Фэнчжоу Чжан; Чжуоран Ян; Чжаоран Ван
Объяснение возникающего контекстного обучения как регрессии ядра [ссылка на документ] 05.10.2023
Чи Хан; Цзыци Ван; Хан Чжао; Хэн Цзи
CausalLM не оптимален для контекстного обучения [ссылка на документ] 2023-09-02
Нань Дин; Томер Левинбойм; Цзялин Ву; Себастьян Гудман; Раду Сорикут
Один шаг градиентного спуска — доказуемо оптимальный контекстный обучающийся с одним уровнем линейного самовнимания [ссылка на документ] 7 июля 2023 г.
Арвинд Маханкали; Тацунори Б. Хасимото; Тенгю Ма
Трансформаторы как статистики: доказуемое контекстное обучение с контекстным выбором алгоритма [ссылка на документ] 6 июля 2023 г.
Ю Бай; Фань Чен; Хуан Ван; Цайминг Сюн; Сон Мэй
Трансформеры обучаются в контексте с помощью градиентного спуска [ссылка на документ] 15 июня 2023 г.
Йоханнес фон Освальд; Эйвинд Никлассон; Этторе Рандаццо; Жоао Сакраменто; Александр Мордвинцев; Андрей Жмогинов; Макс Владимиров
Близость контекстного обучения и изменения веса для регрессии Softmax [ссылка на документ] 26 апреля 2023 г.
Шуай Ли; Чжао Сун; Юй Ся; Тонг Ю; Тяньи Чжоу
Теория возникающего контекстного обучения как индукция неявной структуры [ссылка на документ] 14 марта 2023 г.
Майкл Хан; Навин Гоял
Обучаемость контекстного обучения [ссылка на документ] 14 марта 2023 г.
Ноам Вис; Йоав Левин; Амнон Шашуа
Чему трансформеры могут научиться в контексте? Пример использования классов простых функций [ссылка на статью] 14 января 2023 г.
Шивам Гарг; Димитрис Ципрас; Перси Лян; Грегори Валиант
Трансформаторы обобщают иначе, чем информацию, хранящуюся в контексте, а не в весах [ссылка на документ] 13 октября 2022 г.
Стефани Сай Чан; Ишита Дасгупта; Джункён Ким; Дхаршан Кумаран; Эндрю К. Лампинен; Феликс Хилл
Руководители контекстного обучения и вводного курса [ссылка на документ] 24 сентября 2022 г.
Кэтрин Олссон; Нельсон Эльхадж; Нил Нанда; Николас Джозеф; Нова ДасСарма; Том Хениган; Бен Манн; Аманда Аскелл; Юнтао Бай; Анна Чен; Том Конерли; Рассветный сток; Глубокий Гангули; Зак Хэтфилд-Доддс; Дэнни Эрнандес; Скотт Джонстон; Энди Джонс; Джексон Кернион; Лиана Ловитт; Камаль Ндусс; Дарио Амодей; Том Браун; Джек Кларк; Джаред Каплан; Сэм МакКэндлиш; Крис Ола
^ back to top ^
Статьи, анализирующие феномен цепочки мыслей в больших языковых моделях, исследующие теоретические и эмпирические перспективы.
Что происходило на уровнях LLM при обучении быстрому и медленному мышлению: градиентная перспектива [ссылка на документ] 31 октября 2024 г.
Мин Ли; Яньхун Ли; Тяньи Чжоу
Теоретическое понимание цепочки мыслей: последовательные рассуждения и демонстрация с учетом ошибок [ссылка на документ] 21 октября 2024 г.
Инцянь Цуй; Пэнфэй Хэ; Сяньфэн Тан; Ци Хэ; Чэнь Ло; Цзилян Тан; Юэ Син
От разреженной зависимости к разреженному вниманию: раскрытие того, как цепочка мыслей повышает эффективность выборки трансформатора [ссылка на документ] 7 октября 2024 г.
Кайюэ Вэнь; Хуацин Чжан; Хунчжоу Линь; Цзинчжао Чжан
Обучение нелинейных преобразователей цепочке мыслей: анализ теоретического обобщения [ссылка на документ] 3 октября 2024 г.
Хункан Ли; Мэн Ван; Сонгтао Лу; Сяодун Цуй; Пин-Ю Чен
Авторегрессия + цепочка мыслей (CoT) ≃ Рекуррентность: роль рекуррентности в языковых моделях и пересмотр рекуррентного преобразователя [ссылка на документ] 14 сентября 2024 г.
Сян Чжан; Мухаммад Абдул-Магид; Лакс против Лакшманана
Раскрытие статистических основ методов подсказки цепочки мыслей [ссылка на документ] 25 августа 2024 г.
Синьян Ху; Фэнчжоу Чжан; Сию Чен; Чжуоран Ян
Расшифровка факторов, влияющих на эффективность цепочки мыслей: вероятность, запоминание и шумное рассуждение [ссылка на документ] 1 июля 2024 г.
Акшара Прабхакар; Томас Л. Гриффитс; Р. Томас Маккой
О репрезентативной способности моделей нейронного языка с цепочкой мыслей [ссылка на документ] 20 июня 2024 г.
Франц Новак; Анеж Свете; Александра Бутой; Райан Коттерелл
Глава итерации: механистическое исследование цепочки мыслей [ссылка на документ] 4 июня 2024 г.
Вивьен Кабанн; Чарльз Арнал; Вассим Буазиз; Алиса Янг; Франсуа Шартон; Джулия Кемпе
Давайте подумаем точка за точкой: скрытые вычисления в языковых моделях Transformer [ссылка на документ] 24 апреля 2024 г.
Джейкоб Пфау; Уильям Меррилл; Сэмюэл Р. Боуман
Цепочка мыслей позволяет трансформаторам решать по сути серийные проблемы [ссылка на документ] 20 февраля 2024 г.
Чжиюань Ли; Хун Лю; Денни Чжоу; Тенгю Ма
На пути к раскрытию тайны цепочки мыслей: теоретическая перспектива [ссылка на документ] 22 декабря 2023 г.
Гухао Фэн; Боханг Чжан; Юньтянь Гу; Хаотянь Е; Ди Хэ; Ливэй Ван
Почему большие языковые модели могут генерировать правильную цепочку мыслей? [ссылка на документ] 20 октября 2023 г.
Расул Тутунов; Антуан Гроснит; Юлиуш Зиомек; Цзюнь Ван; Хайсам Бу-Аммар
Как большие языковые модели реализуют цепочку мыслей? [ссылка на документ] 13 октября 2023 г.
Ицюнь Ван; Силе Ху; Юнган Чжан; Сян Тянь; Сюэсун Лю; Яову Чен; Сюй Шен; Цзепин Йе
Выразительная сила трансформеров с цепочкой мыслей [ссылка на документ] 13 октября 2023 г.
Уильям Меррилл; Ашиш Сабхарвал
^ back to top ^
Статьи, посвященные феномену галлюцинаций в языковых моделях, включая как теоретический, так и эмпирический анализ.
Никаких бесплатных обедов: фундаментальные ограничения изучения негаллюцинирующих генеративных моделей [ссылка на документ] 24 октября 2024 г.
Чанлун Ву; Анант Грама; Войцех Шпанковски
Общее воображение: студенты-магистры галлюцинируют одинаково [ссылка на документ] 23 июля 2024 г.
Илунь Чжоу; Цайминг Сюн; Сильвио Саварезе; Цзянь-Шэн Ву
Оценка частоты галлюцинаций генеративного ИИ [ссылка на документ] 11 июня 2024 г.
Эндрю Джессон; Николя Бельтран-Велес; Квентин Чу; Света Карлекар; Янник Коссен; Ярин Гал; Джон П. Каннингем; Дэвид Блей
Поощряет ли точная настройка LLM новых знаний галлюцинации? [ссылка на документ] 9 мая 2024 г.
Зорик Гехман; Галь Йона; Рои Ахарони; Матан Эяль; Амир Федер; Рой Райхарт; Джонатан Херциг
Механизмы нефактических галлюцинаций в языковых моделях [ссылка на статью] 26 марта 2024 г.
Лей Юй; Мэн Цао; Джеки Чи Кит Чунг; Юэ Донг
Незнакомые примеры точной настройки контролируют галлюцинации языковых моделей [ссылка на документ] 8 марта 2024 г.
Кэти Канг; Эрик Уоллес; Клэр Томлин; Авирал Кумар; Сергей Левин
Резкость в контексте как предупреждение: перспектива внутреннего представления для смягчения галлюцинаций [ссылка на документ] 5 марта 2024 г.
Шици Чен; Мяо Сюн; Цзюньтенг Лю; Чжэнсюань Ву; Тэн Сяо; Сыян Гао; Цзюньсянь Хэ
Калиброванные языковые модели должны галлюцинировать [ссылка на документ] 24 ноября 2023 г.
Адам Тауман Калаи; Сантош С. Вемпала
Загадочный случай галлюцинаторной невозможности ответа: поиск истины в скрытых состояниях чрезмерно самоуверенных моделей большого языка [ссылка на документ] 18 октября 2023 г.
Авив Слободкин; Омер Гольдман; Ави Качулару; Идо Даган; Шаули Равфогель
^ back to top ^
Статьи, в которых анализируется феномен отмены проклятия в больших языковых моделях.
К теоретическому пониманию «обратного проклятия» через динамику обучения [ссылка на документ] 7 мая 2024 г.
Ханлинь Чжу; Байхэ Хуан; Шаолун Чжан; Майкл Джордан; Цзянтао Цзяо; Юаньдун Тянь; Стюарт Рассел
Проклятие обратного: студенты магистратуры, обученные по принципу «А есть Б», не могут выучить «Б есть А» [ссылка на документ] 4 апреля 2024 г.
Лукас Берглунд; Мэг Тонг; Макс Кауфманн; Микита Бэлесни; Аса Купер Стикленд; Томаш Корбак; Оуэн Эванс
Исследование неэффективности LLM в понимании обратных отношений [ссылка на документ] 1 декабря 2023 г.
Чэнвэнь Ци; Боуэн Ли; Биньюань Хуэй; Бэйлинь Ван; Цзиньян Ли; Цзиньван Ву; Юаньцзюнь Лайли
Физика языковых моделей: часть 3.2, Манипулирование знаниями [ссылка на документ] 25 сентября 2023 г.
Цзэюань Аллен-Чжу; Юаньчжи Ли
Проклятие разворота: какие токены, по вашему прогнозу, лежат в основе проклятия факторизации и многого другого [ссылка на документ] 7 июня 2023 г.
Уаил Китуни; Никлас Нольте; Дайан Бушакур; Адина Уильямс; Майк Рэббат; Марк Ибрагим
^ back to top ^
Статьи, посвященные тому, как производительность модели масштабируется в зависимости от размера модели, размера данных или вычислительных ресурсов, а также появления неожиданных способностей.
Раскрытие теории масштабирования 1-битных нейронных сетей [ссылка на документ] 3 ноября 2024 г.
Маджид Далири; Чжао Сун; Чивун Ян
Как масштабируется критический размер пакета при предварительном обучении? [ссылка на документ] 2024-10-29
Ханлинь Чжан; Депен Морвани; Нихил Вьяс; Цзинфэн Ву; Дифан Цзоу; Удая Гай; Дин Фостер; Шам Какаде
Информационная теория оптимального для вычислений масштабирования, возникновения и плато в языковых моделях [ссылка на документ] 15 октября 2024 г.
Анудж К. Наяк; Лав Р. Варшни
Руководство для автостопщика по оценке закона масштабирования [ссылка на документ] 15 октября 2024 г.
Лешем Чошен; Ян Чжан; Джейкоб Андреас
Законы масштабирования в модельных архитектурах: сравнительный анализ плотных моделей и моделей MoE в моделях большого языка [ссылка на документ] 8 октября 2024 г.
Сики Ван; Чжэнъюй Чен; Бэй Ли; Кэцин Хэ; Мин Чжан; Цзинган Ван
Гроккинг на грани линейной разделимости [ссылка на статью] 6 октября 2024 г.
Алон Бек; Ноам Леви; Йохай Бар-Синай
Эмпирическое исследование законов масштабирования переноса [ссылка на документ] 30 августа 2024 г.
Мэтью Барнетт
Перколяционная модель возникновения: анализ преобразователей, обученных на формальном языке [ссылка на документ] 22 августа 2024 г.
Экдип Сингх Лубана; Кёго Кавагути; Роберт П. Дик; Хиденори Танака
Закон масштабирования с отжигом скорости обучения [ссылка на документ] 20 августа 2024 г.
Ткань Хау; Венера Ванга; Лу Ван
Закон производительности больших языковых моделей [ссылка на документ] 19 августа 2024 г.
Чухан Ву; Жуймин Тан
Теоретико-информационные меры прогресса показывают, что Гроккинг представляет собой новый фазовый переход [ссылка на документ] 16 августа 2024 г.
Кензо Клау; Себастьяно Страмалья; Даниэле Маринаццо
Большие языковые обезьяны: масштабирование вычислений вывода с повторной выборкой [ссылка на документ] 31 июля 2024 г.
Брэдли Браун; Джордан Журавски; Райан Эрлих; Рональд Кларк; Куок В. Ле; Кристофер Ре; Азалия Мирхосейни
Появление ненейронных моделей: модулярная арифметика с помощью внешнего продукта среднего градиента [ссылка на документ] 29 июля 2024 г.
Нил Маллинар; Дэниел Биглхол; Либинь Чжу; Адитьянараянан Радхакришнан; Парте Пандит; Михаил Белкин
Изучение тенденций масштабирования надежности LLM [ссылка на документ] 25 июля 2024 г.
Николаус Хоу; Михал Заяц; Ян Маккензи; Оскар Холлинсворт; Том Ценг; Пьер-Люк Бэкон; Адам Глив
Понимание взаимодействия масштаба, данных и смещения в языковых моделях: пример использования BERT [ссылка на документ] 25 июля 2024 г.
Мухаммед Али; Шветасудха Панда; Циньлань Шен; Майкл Уик; Ари Кобрен
Законы масштабирования с помощью словаря: более крупные модели заслуживают большего словаря [ссылка на документ] 18 июля 2024 г.
Чаофан Тао; Цянь Лю; Лунсюй Доу; Никлас Мюннигофф; Чжунвэй Ван; Пин Ло; Мин Лин; Нгай Вонг
Почему ты грок? Теоретический анализ модульного сложения Гроккинга [ссылка на документ] 17 июля 2024 г.
Мохамад Амин Мохамади; Чжиюань Ли; Лей Ву; Даника Дж. Сазерленд
Прогнозирование новых возможностей путем точной настройки [ссылка на документ] 10 июля 2024 г.
Чарли Виктор Снелл; Эрик Уоллес; Дэн Кляйн; Сергей Левин
Разрешение несоответствий в вычислительно-оптимальном масштабировании языковых моделей [ссылка на документ] 25 июня 2024 г.
Томер Пориан; Митчелл Уортсман; Женя Жицев; Людвиг Шмидт; Яир Кармон
Законы масштабирования для языковых моделей линейной сложности [ссылка на документ] 24 июня 2024 г.
Сюян Шен; Донг Ли; Жуйтао Ленг; Чжэнь Цинь; Вейгао Сан; Иран Чжун
Законы масштабирования для запоминания фактов больших языковых моделей [ссылка на документ] 22 июня 2024 г.
Синъюй Лу; Сяонань Ли; Циньюань Чэн; Кай Дин; Сюаньцзин Хуан; Сипэн Цю
Согласование законов масштабирования Каплана и Шиншиллы [ссылка на документ] 12 июня 2024 г.
Тим Пирс; Джинёп Сон
Глубокий гроккинг: будут ли глубокие нейронные сети лучше обобщать? [ссылка на документ] 29 мая 2024 г.
Симин Фан; Разван Пашкану; Мартин Джагги
Лингвистический коллапс: нейронный коллапс в (больших) языковых моделях [ссылка на документ] 28 мая 2024 г.
Роберт Ву; Вардан Папян
Законы масштабирования и оптимальное для вычислений обучение за пределами фиксированной продолжительности обучения [ссылка на документ] 28 мая 2024 г.
Александр Хегеле; Эли Бакуш; Атли Коссон; Лубна Бен Аллал; Леандро фон Верра; Мартин Джагги
gzip предсказывает законы масштабирования, зависящие от данных [ссылка на документ] 26 мая 2024 г.
Рохан Панди
Появление фазы многомерной абстракции в преобразователях языка [ссылка на статью] 24 мая 2024 г.
Эмили Ченг; Диего Доймо; Корентен Кервадек; Юрий Макокко; Джейд Ю; Алессандро Лайо; Марко Барони
Обоснование с частотной точки зрения гроккинга при обучении нейронной сети [ссылка на статью] 24 мая 2024 г.
Чжанчен Чжоу; Яоюй Чжан; Чжи-Цинь Джон Сюй
Трансформаторы Grokked — неявные рассуждения: механистическое путешествие к грани обобщения [ссылка на документ] 23 мая 2024 г.
Боши Ван; Сян Юэ; Ю Су; Хуан Сунь
Смешение данных стало эффективным: закон двумерного масштабирования для предварительной подготовки языковой модели [ссылка на документ] 23 мая 2024 г.
Се Ге; Чжицзянь Ма; Даоюань Чен; Ялян Ли; Болин Дин
4+3 фазы законов оптимального нейронного масштабирования [ссылка на документ] 23 мая 2024 г.
Эллиот Пакетт; Кортни Пакетт; Лечао Сяо; Джеффри Пеннингтон
Рабы закона больших чисел: свойство асимптотического равнораспределения для недоумения в моделях генеративного языка [ссылка на документ] 22 мая 2024 г.
Рагху Мудумбай; Тайлер Белл
Количественная оценка появления больших языковых моделей [ссылка на документ] 21 мая 2024 г.
Ханг Чен; Синью Ян; Цзяин Чжу; Венья Ван
За пределами законов масштабирования: понимание производительности трансформатора с помощью ассоциативной памяти [ссылка на документ] 14 мая 2024 г.
Сюэян Ню; Бо Бай; Лэй Дэн; Вэй Хань
Больше вычислений — это то, что вам нужно [ссылка на документ] 30 апреля 2024 г.
Чжэнь Го
Точно решаемая модель законов возникновения и масштабирования [ссылка на статью] 26 апреля 2024 г.
Юнсу Нам; Наяра Фонсека; Сок Хён Ли; Ард Луи
Почему модели с малым языком неэффективны? Изучение насыщения языковой модели через узкое место Softmax [ссылка на документ] 11 апреля 2024 г.
Натан Годи; Эрик де ла Клержери; Бенуа Саго
Масштабное исследование
Лукас Лингл
Возникающие способности в генеративных языковых моделях уменьшенного масштаба [ссылка на документ] 2 апреля 2024 г.
Шерин Мукатира; Виджета Дешпанде; Владислав Лялин; Анна Румшиски
Понимание новых возможностей языковых моделей с точки зрения потерь [ссылка на документ] 23 марта 2024 г.
Чжэнсяо Ду; Аохан Цзэн; Юсяо Донг; Цзе Тан
Разгадка тайны законов масштабирования: часть I [ссылка на документ] 21 марта 2024 г.
Хуэй Су; Чжи Тянь; Сяоюй Шен; Сюньлян Цай
Языковые модели надежно масштабируются при чрезмерном обучении и последующих задачах [ссылка на документ] 13 марта 2024 г.
Самир Ицхак Гадре; Георгиос Смирнис; Вайшаал Шанкар; Сучин Гуруранган; Митчелл Уортсман; Рулин Шао; Жан Меркат; Алекс Фанг; Джеффри Ли; Седрик Ке; Руй Синь; Марианна Нежурина; Игорь Васильевич; Женя Жицев; Александрос Г. Димакис; Габриэль Ильхарко; Шуран Сонг; Томас Коллар; Яир Кармон; Ачал Дэйв; Рейнхард Хекель; Никлас Мюннигофф; Людвиг Шмидт
Когда масштабирование соответствует точной настройке LLM: влияние данных, модели и метода точной настройки [ссылка на документ] 26 февраля 2024 г.
Бяо Чжан; Чжунтао Лю; Колин Черри; Орхан Фират
Интерпретация трансформаторов Grokked в сложной модульной арифметике [ссылка на статью] 26 февраля 2024 г.
Хироки Фурута; Гоуки Минегиси; Юсуке Ивасава; Ютака Мацуо
Сказка о решке: коллапс модели как изменение законов масштабирования [ссылка на документ] 10 февраля 2024 г.
Элвис Дохматоб; Юньчжэнь Фэн; Пу Ян; Франсуа Шартон; Джулия Кемпе
Масштабирование языковых моделей с ограничением данных [ссылка на документ] 25 октября 2023 г.
Никлас Мюннигофф; Александр М. Раш; Боаз Барак; Тевен Ле Скао; Александра Пиктус; Нуаман Тази; Сампо Пюйсало; Томас Вольф; Колин Раффель
Цена уменьшения масштаба языковых моделей: запоминаемость фактов ухудшается перед контекстным обучением [ссылка на документ] 6 октября 2023 г.
Тянь Цзинь; Нолан Клемент; Синь Донг; Вайшнав Нагараджан; Майкл Карбин; Джонатан Рэган-Келли; Гинтаре Каролина Дзюгайте
Являются ли новые способности больших языковых моделей миражом? [ссылка на документ] 28 апреля 2023 г.
Райлан Шеффер; Брандо Миранда; Санми Коеджо
Обучение оптимальных для вычислений моделей большого языка [ссылка на документ] 29 марта 2022 г.
Джордан Хоффманн; Себастьян Боржо; Артур Менш; Елена Бучацкая; Тревор Кай; Элиза Резерфорд; Диего де Лас Касас; Лиза Энн Хендрикс; Йоханнес Вельбл; Эйдан Кларк; Том Хенниган; Эрик Ноланд; Кэти Милликан; Джордж ван ден Дриссе; Богдан Дамок; Аурелия Гай; Саймон Осиндеро; Карен Симонян; Эрих Эльсен; Джек В. Рэй; Ориол Виньялс; Лоран Сифре
Законы масштабирования для моделей нейронного языка [ссылка на документ] 22 января 2020 г.
Джаред Каплан; Сэм МакКэндлиш; Том Хениган; Том Б. Браун; Бенджамин Чесс; Ревон Дитя; Скотт Грей; Алек Рэдфорд; Джеффри Ву; Дарио Амодей
^ back to top ^
Статьи, посвященные тому, как большие языковые модели хранят, извлекают и используют знания, анализируя задействованные механизмы памяти.
Геометрическая основа для понимания запоминания в генеративных моделях [ссылка на документ] 31 октября 2024 г.
Брендан Ли Росс; Хамидреза Камкари; Тунцзи Ву; Раса Хоссейнзаде; Чжаоян Лю; Джордж Стейн; Джесси К. Крессвелл; Габриэль Лоаиса-Ганем
Оптимальная способность запоминания трансформаторов [ссылка на документ] 26 сентября 2024 г.
Токио Кадзицука; Иссей Сато
Память Шрёдингера: большие языковые модели [ссылка на документ] 16 сентября 2024 г.
Вэй Ван; Цин Ли
Самовнимание ограничивает объем рабочей памяти моделей на основе трансформатора [ссылка на документ] 16 сентября 2024 г.
Дунъюй Гонг; Хантао Чжан
Великая память, поверхностные рассуждения: пределы kNN-LM [ссылка на документ] 21 августа 2024 г.
Шанъи Гэн; Вентинг Чжао; Александр М Раш
Запоминание в контекстном обучении [ссылка на документ] 21 августа 2024 г.
Шахриар Гольчин; Михай Сурдяну; Стивен Бетард; Эдуардо Бланко; Эллен Рилофф
Обобщение сначала, запоминание вторым? Локализация запоминания для задач классификации естественного языка [бумажная ссылка] 2024-08-09
Верна Данкерс; Иван Титов
Понимание запоминания в LLMS: динамика, влиятельные факторы и последствия [Paper Link] 2024-07-27
До Спейхера; Мохаммад Афла Хан; Qinyuan wu; Ведант Нанда; Суми Дас; Бишвамиттра Гош; Кришна П. Гуммади; Эвимария Терзи
Демистификация дословного запоминания в моделях крупных языков [Paper Link] 2024-07-25
Цзин Хуан; Diyi Yang; Кристофер Поттс
От внутреннего конфликта до контекстуальной адаптации языковых моделей [Paper Link] 2024-07-24
Сара Вера Маржанович; Хейн Ю; Пепа Атанасова; Мария Маистро; Кристина Лиома; Изабель Аугенштейн
Обобщение против запоминания: отслеживание возможностей языковых моделей обратно к предварительному обработке данных [Paper Link] 2024-07-20
Антонис Антониадес; Синьи Ван; Янай Элазар; Alfonso Amayuelas; Алон Альбалак; Кексун Чжан; Уильям Ян Ван
Физика языковых моделей: часть 3.1, хранение и извлечение знаний [бумажная ссылка] 2024-07-16
Зейуан Аллен-зху; Юанжа Ли
Индукционная головка является важным механизмом для сопоставления схем в встроенном обучении [бумажная ссылка] 2024-07-09
Дж. Кросби; E. shutova
Мечтают ли LLMS о слонах (когда сказано не делать)? Ассоциация латентной концепции и ассоциативная память в трансформаторах [Paper Link] 2024-06-26
Ибо Цзян; Гутам Раджендран; Прадип Равикумар; Брайон Арагам
Законы масштабирования для запоминания моделей крупных языков [Paper Link] 2024-06-22
Синью Лу; Сяонан Ли; Цинуан Ченг; Кай Дин; Сюандзин Хуан; Xipeng Qiu
Соединение точек: LLMS может вывести и вербализировать скрытую структуру из разрозненных учебных данных [бумажная ссылка] 2024-06-20
Йоханнес Треутлейн; Дами Чой; Ян Бетли; Cem anil; Сэмюэль Маркс; Роджер Бейкер Гросс; Оуин Эванс
Раскрытие скрытых воспоминаний: оценка утечки данных и запоминания в моделях крупных языков [Paper Link] 2024-06-20
Санни Дуан; Микаил Хона; Абхирам Айер; Рилан Шеффер; ИЛА Р. ФИЕТ
Понимание финала для фактического извлечения знаний [бумажная ссылка] 2024-06-20
Гаурав Госал; Татсунори Хасимото; Адити Рагхунатан
Оценка знаний в крупных языковых моделях без генерирования одного токена [бумажная ссылка] 2024-06-18
Даниэла Готтесман; Мор Гева
Как крупные языковые модели приобретают фактические знания во время предварительной подготовки? [Бумажная ссылка] 2024-06-17
Хойон Чанг; Парк Цзиньо; Seonghyeon ye; Сохи Ян; Youngkyung Seo; Du-seong Chang; Minjoon Seo
Будь как золотая рыбка, не запоминайте! Смягчение запоминания в генеративных LLMS [Paper Link] 2024-06-14
Абхиманью Ганс; Yuxin Wen; Нил Джейн; Джон Кирченбауэр; Хамид Каземи; Праджвал Сингхания; Сиддхарт Сингх; Говтами, некоторыепалли; Джонас Гейпинг; Абхинав Бхателе; Том Гольдштейн
Целью знаний в предварительных трансформаторах [Paper Link] 2024-05-28
Юньчхи Яо; Ниню Чжан; Zekun XI; Менгру Ван; Зивен Сюй; Шумин Дэн; Хуаджун Чен
Верхняя и нижняя границы пропускной способности трансформаторов для предсказания следующего ток [Paper Link] 2024-05-22
Лиам Мэдден; Кертис Фокс; Христос Трампулидис
Мультиперспективный анализ запоминания в крупных языковых моделях [Paper Link] 2024-05-19
Боуэн Чен; Намги Хан; Юсуке Мияо
Физика языковых моделей: Часть 3.3, Законы о масштабировании знаний [бумажная ссылка] 2024-04-08
Зейуан Аллен-зху; Юанжа Ли
Способность запоминания многоуровневого внимания в трансформаторах [Paper Link] 2024-03-02
Садех Махдави; Ренджи Ляо; Христос Трампулидис
Рождение трансформатора: точка зрения памяти [бумажная ссылка] 2023-11-06
Альберто Биетти; Вивьен Кабаннес; Дайан Бушакурт; Эрве Джегу; Леон Ботту
Физика языковых моделей: Часть 3.2, Манипуляция знаний [бумажная ссылка] 2023-09-25
Зейуан Аллен-зху; Юанжа Ли
Можно ли локализовать запоминание нейронной сети? [Бумажная ссылка] 2023-07-18
Pratyush maini; Майкл С. Мозер; Хани Седги; Захари С. Липтон; Дж. Зико Колтер; Чиюань Чжан
Количественная оценка запоминания в моделях нейронного языка [бумажная ссылка] 2022-02-15
Николас Карлини; Дафна Ипполито; Мэтью Ягельски; Кэтрин Ли; Флорианский трамер; Чиюань Чжан
^ back to top ^
Документы, обсуждающие различные аспекты учебного процесса, включая оптимизацию, тонкую настройку и обучающий ландшафт крупных языковых моделей.
Глобальная конвергенция в обучении крупномасштабных трансформаторов [Paper Link] 2024-10-31
Ченг Гао; Юань Као; Зихао Ли; Yihan он; Менгди Ван; Хан Лю; Джейсон Мэтью Клусовски; Цзяньцинг фанат
Что произошло в слоях LLMS, когда обучалось для быстрого и медленного мышления: градиентная перспектива [бумажная ссылка] 2024-10-31
Мин Ли; Янхон Ли; Тяни Чжоу
Обучение и передача разреженных контекстуальных биграмов с линейными трансформаторами [бумажная ссылка] 2024-10-30
Юнвей Рен; Зиксуань Ван; Джейсон Д. Ли
Резкое обучение в трансформаторах: тематическое исследование по завершению матрицы [бумажная ссылка] 2024-10-29
Пулкит Гопалани; Экдип Сингх Любана; Вэй Ху
Лора против полной тонкой настройки: иллюзия эквивалентности [бумажная ссылка] 2024-10-28
Рис Шаттлворт; Джейкоб Андреас; Антонио Торральба; Пратюша Шарма
Смещение простоты распределения в динамике обучения трансформаторов [Paper Link] 2024-10-25
Riccardo Rende; Федерика Герас; Алессандро Лайо; Себастьян Голдт
Активно-пребываемые головы внимания: механически демистификация явлений экстремальных точек в LLMS [Paper Link] 2024-10-17
Tianyu Guo; Druv Pai; Ю Бай; Jiantao jiao; Майкл И. Джордан; Песня Мэй
Как трансформаторы реализуют головки индукции: анализ аппроксимации и оптимизации [Paper Link] 2024-10-15
Мингзе Ван; Ruoxi yu; Вейнань E; Лэй Ву
Что значит быть трансформатором? Понимание теоретического гессанского анализа [Paper Link] 2024-10-14
Weronika Ormaniec; Феликс Дангель; Сидак Пал Сингх
Адаптация Odyssey в LLMS: Почему дополнительная предварительная подготовка иногда не может улучшить? [Бумажная ссылка] 2024-10-08
Fırat öncel; Матиас Бетге; Бейза Эрмис; Mirco Ravanelli; CEM Subakan; Çağatay Yıldız
О оптимизации и обобщении двухслойных трансформаторов с градиентным спусками знака [бумажная ссылка] 2024-10-07
Bingrui li; Вэй Хуан; Энди Хан; Чжанпенг Чжоу; Тайцзи Сузуки; Джун Чжу; Цзянфэй Чен
Понимание скорости обучения стабильной разминки: перспектива ландшафта потерь речной долины [Paper Link] 2024-10-07
Кайю Вэнь; Чжиюань Ли; Джейсон Ван; Дэвид Холл; Перси Лян; Тенгю Ма
Обучение нелинейным трансформаторам для вывода цепочки мыслей: анализ теоретического обобщения [Paper Link] 2024-10-03
Хонканг Ли; Мэн Ван; Songtao Lu; Xiaodong cui; Pin-Yu Chen
Теоретическое понимание механизма внимания с точной настройкой: обобщение и оптимизация [Paper Link] 2024-10-03
Синьхао Яо; Хонгжин Цянь; Сяолин Ху; Gengze Xu; Юн Лю
Обученные классификаторы трансформаторов обобщают и демонстрируют доброкачественную пережитку в контексте [бумажная ссылка] 2024-10-02
Спенсер Фрей; Гал Варди
На пути к теоретическому пониманию синтетических данных в пост-тренировке LLM: перспектива обратного боттлека [Paper Link] 2024-10-02
Зейу Ган; Юн Лю
Исследование влияния сложности модели на моделях крупных языков [бумажная ссылка] 2024-10-01
Цзин Луо; Хуйюан Ван; Вейран Хуан
Benigh или не-бенгентный переосмысление в выборе токенов механизма внимания [Paper Link] 2024-09-26
Кейтаро Сакамото; Иссей Сато
Несимптотическая конвергенция тренировочных трансформаторов для предсказания следующего ток [бумажная связь] 2024-09-25
Руикан Хуан; Ингбин Лян; Цзин Ян
Оптимизация законов о гиперпараметре для моделей крупных языков [Paper Link] 2024-09-07
Xingyu Xie; Куангю Дин; Шуихенг Ян; Ким Чуан Тох; Tianwen Wei
Ademamix Optimizer: лучше, быстрее, старые [бумажная ссылка] 2024-09-05
Matteo Pagliardini; Пьер Аблин; Дэвид Гранжер
Кластеризация и выравнивание: понимание динамики обучения в модульном добавлении [бумажная ссылка] 2024-08-18
Tiberiu Musat
Глобальная конвергенция в обучении крупномасштабных трансформаторов [Paper Link] 2024-08
Ченг Гао; Юань Као; Зихао Ли; Yihan он; Менгди Ван; Хан Лю; Джейсон М. Клусовски; Цзяньцинг фанат
О конвергенции мелких трансформаторов только для энкодера [бумажная ссылка] 2024-08
Yongtao wu; Fanghui Liu; Григориос Грисос; Volkan Cevher
Параметр-эффективная тонкая настройка для постоянного обучения: перспектива нейронного касательного ядра [бумажная ссылка] 2024-07-24
Джингрен Лю; Жонг Джи; Юнлонг Ю; Jiale Cao; Янвей Панг; Юнгонг Хан; Xuelong Li
Динамика обучения LLM Penetuning [Paper Link] 2024-07-15
И Рен; Даника Дж. Сазерленд
Деконструкция того, что делает хорошим оптимизатором для языковых моделей [бумажная ссылка] 2024-07-10
Рози Чжао; DEPEN MORWANI; Дэвид Брандфонбренер; Нихил Вьяс; Шам Какаде
Обобщение с нулевым выстрелом во время настройки инструкций: понимание сходства и детализации [бумажная связь] 2024-06-17
Bingxiang он; Нин Дин; Ченг Цянь; Цзя Дэн; Ганк Cui; Lifan Yuan; Хуан-Ан Гао; Хуимин Чен; Чжиюань Лю; Маосонг Солнце
Понимание линейного зондирования, затем тонкие языковые модели с точки зрения NTK [Paper Link] 2024-05-27
Акийоши Томихари; Иссей Сато
Бесконечные пределы динамики мульти-головного трансформатора [бумажная ссылка] 2024-05-24
Блейк Борделон; Хамза Тахир Чаудхри; Cengiz Pehlevan
На пути к теоретическому пониманию «обратного проклятия» посредством динамики обучения [Paper Link] 2024-05-07
Хэнлин Чжу; Байхе Хуан; Шаолун Чжан; Майкл Джордан; Jiantao jiao; Юандонг Тянь; Стюарт Рассел
Контроль теоретический подход к тонкой настройке и обучению передачи [бумажная ссылка] 2024-04-16
Эркан Байрам; Шеню Лю; Мохамед-Али Белаббас; Тамер Башар
Посмотрите на текст: Настройка инструкции языковые модели являются более надежными селекторами с множественным выбором, чем вы думаете [Paper Link] 2024-04-12
Синпенг Ван; Ченгжи Ху; Bolei Ma; Пол Реттгер; Барбара Планка
О учебном влиянии данных моделей GPT [Paper Link] 2024-04-11
Циньи Лю; Йекун Чай; Шуууан Ван; Ю Сан; Кез Ван; Хуа Ву
Лучшие практики и уроки, извлеченные по синтетическим данным для языковых моделей [Paper Link] 2024-04-11
Рурибо Лю; Джерри Вэй; Фангю Лю; Ченглей Си; Янцхе Чжан; Jinmeng Rao; Стивен Чжэн; Daiyi Peng; Diyi Yang; Денни Чжоу; Эндрю М. Дай
Насколько плохо обучение по синтетическим данным? Статистический анализ обрушения языковой модели [бумажная ссылка] 2024-04-07
Мохамед Эль Амин Седдик; Суэй-Вэнь Чен; Soufiane Hayou; Пьер Юссеф; Меруан Дебба
Раскрытие мощности обобщения тонких настройки больших языковых моделей [бумажная ссылка] 2024-03-14
Гаран Ян; Юманг Чжан; Jiaqi Xu; Хонгьюань Лу; Фэн Энн Хенг; Wai Lam
Трансформеры получают стабильные: теория распределения сквозного сигнала для языковых моделей [Paper Link] 2024-03-14
Ахил Кедия; Мохд Аббас Заиди; Сушил Кхиалия; Jungho Jung; Суровый Гока; Хейджун Ли
Линейное внимание-это (возможно) все, что вам нужно (для понимания оптимизации трансформатора) [бумажная ссылка] 2024-03-13
Кванджун Ан; Сян Ченг; Минхак Песня; Чулхи Юн; Али Джадбабай; Внедорожник SRA
Отличительные признаки траекторий оптимизации в нейронных сетях и LLMS: длины, изгибы и мертвые концы [бумажная ссылка] 2024-03-12
Сидак Пал Сингх; Бобби он; Томас Хофманн; Бернхард Шёлкопф
Эвристическое ядро: Понимание обобщения подсети в моделях с предварительным языком [Paper Link] 2024-03-06
Адитя Бхаскар; Дэн Фридман; Данки Чен
Динамика обучения многоуровневого внимания SoftMax для внедренного обучения: появление, конвергенция и оптимальность [бумажная ссылка] 2024-02-29
Сию Чен; Хиджун Шин; Тянхао Ван; Чжуоран Ян
Как трансформаторы изучают причинно-следственную структуру с градиентным происхождением [Paper Link] 2024-02-22
Эшаан Ничани; Алекс Дамиан; Джейсон Д. Ли
Обучение LORA в режиме NTK не имеет ложных местных минимумов [Paper Link] 2024-02-19
Uijeong Jang; Джейсон Д. Ли; Эрнест К. Рю
О появлении линейности перекрестной задачи в парадигме предварительного финизации [бумажная связь] 2024-02-06
Чжанпенг Чжоу; Зидзюн Чен; Йилан Чен; Бо Чжан; Джунчи Ян
Трансформеры учатся через постепенное увеличение ранга [бумажная ссылка] 2023-12-10
Энрик Боикс-Адсера; Etai littwin; Эммануэль Аббе; Сами Бенгио; Джошуа Сасскинд
Механистически анализируя влияние тонкой настройки на процедурно определенные задачи [Paper Link] 2023-11-21
Самьяк Джейн; Роберт Кирк; Экдип Сингх Любана; Роберт П. Дик; Хиденори Танака; Эдвард Грефенштетт; Тим Рокташель; Дэвид Скотт Крюгер
Соединение модели с предварительно обученной языком и задачи вниз по течению через свойства представления [бумажная ссылка] 2023-11-02
Chenwei wu; Холден Ли; Ронг Ге
Сканирование и снимок: понимание динамики обучения и состава токенов в 1-слойном трансформаторе [бумажная ссылка] 2023-07-02
Юандонг Тянь; Ипинг Ван; Бейди Чен; Саймон дю
Основанная на ядра представление о языковой модели тонкая настройка [бумажная ссылка] 2023-06-15
Садхика Маллади; Александр Веттиг; Dingli Yu; Данки Чен; Санджив Арора
Анализ стабильности тонкой настройки предварительно обученной модели [Paper Link] 2023-01-24
Зихао Фу; Энтони Ман-Чо так; Найджел Коллиер
^ back to top ^
Документы, анализирующие возможности обучения и производительность обобщения языковых моделей, от слабых до сильного обобщения.
Ограничения и границы риска для рецидивирующих нейронных сетей [бумажная ссылка] 2024-11-05
Сюэвей Ченг; Ке Хуан; Shujie Ma
Доказное обобщение длины в прогнозировании последовательностей посредством спектральной фильтрации [бумажная ссылка] 2024-11-01
Энни Марсден; Эван Догариу; Наман Агарвал; Синьи Чен; Даниэль Суо; Элад Хазан
RL-Star: теоретический анализ рамки обучения подкреплению для самоучительной аргументации [Paper Link] 2024-10-31
Fu-Chieh Chang; Yu-ning Lee; Hui-ying shih; PEI-YUAN WU
Смесь попугаев: эксперты улучшают запоминание больше, чем рассуждения [Paper Link] 2024-10-24
Сами Джеласси; Клара Мохри; Дэвид Брандфонбренер; Алекс Гу; Нихил Вьяс; Нихил Ананд; Дэвид Альварес-Мелис; Юанжа Ли; Шам М. Какаде; Эран Малах
Как численная точность влияет на математические способности LLMS [Paper Link] 2024-10-17
Гухао Фэн; Кай Ян; Юнтиан Гу; Xinyue AI; Shengjie Luo; Jiacheng Sun; Di он; Чжэнгуо Ли; Ливей Ван
На ранг-зависимых границах ошибок обобщения для трансформаторов [Paper Link] 2024-10-15
Лан В. Труонг
Доброкачественная переосмысление внимания с одной головкой [бумажная ссылка] 2024-10-10
Рои Маген; Избегая Шан; Чживей Сюй; Спенсер Фрей; Вэй Ху; Гал Варди
Динамика концептуального обучения и обобщения композиции [бумажная ссылка] 2024-10-10
Йонги Ян; Основной парк Франциско; Экдип Сингх Любана; Майя Окава; Вэй Ху; Хиденори Танака
Доброкачественная переосмысление для регрессии с помощью обученных двухслойных сетей Relu [Paper Link] 2024-10-08
Парк Junhyung; Патрик Блюбаум; Шива Прасад Касивисванатан
Довольное обобщение слабых и сильных посредством доброкачественного переживания [бумажная связь] 2024-10-06
Дэвид X. Ву; Anant Sahai
Формальная структура для понимания обобщения длины в трансформаторах [бумажная ссылка] 2024-10-03
Ссинтинг Хуан; Энди Ян; Satwik Bhattamishra; Яш Сарроф; Андреас Кребс; Хэтти Чжоу; Preetum nakkiran; Майкл Хан
Обученные классификаторы трансформаторов обобщают и демонстрируют доброкачественную пережитку в контексте [бумажная ссылка] 2024-10-02
Спенсер Фрей; Гал Варди
Линии мышления в моделях крупных языков [бумажная ссылка] 2024-10-02
Рафаэль Сарфати; Тони Дж.Б. Лю; Николас Булле; Кристофер Дж. Эрлс
Исследование влияния сложности модели на моделях крупных языков [бумажная ссылка] 2024-10-01
Цзин Луо; Хуйюан Ван; Вейран Хуан
Доброкачественный или не смягчающий переосмысление при выборе токена механизма внимания [бумажная связь] 2024-09-26
Кейтаро Сакамото; Иссей Сато
Понимание смещения простоты в сторону композиционных отображений посредством динамики обучения [Paper Link] 2024-09-15
И Рен; Даника Дж. Сазерленд
Незабываемое обобщение в языковых моделях [бумажная ссылка] 2024-09-03
Эрик Чжан; Лешем выбрал; Джейкоб Андреас
Многочисленные лица оптимального обучения слабым и сильным [бумажной ссылкой] 2024-08-30
Микаэль Мёллер Хогсгаард; Каспер Грин Ларсен; Маркус Энгелунд Матиасен
Физика языковых моделей: Часть 2.2, как учиться на ошибках по математическим задачам школы [бумага] 2024-08-29
Tian ye; Zicheng Xu; Юанжа Ли; Зейуан Аллен-зю
Обобщение на распределении через композицию: линза через индукционные головки в трансформаторах [Paper Link] 2024-08-18
Jiajun Song; Чжуоян Сюй; Yiqiao Zhong
Обобщением обучения предпочтениям с помощью DPO [Paper Link] 2024-08-06
Шон Им; Иксуань Ли
Индуктивный или дедуктивный? Переосмысление фундаментальных способностей рассуждения LLMS [Paper Link] 2024-07-31
Кевей Ченг; Цзинфенг Ян; Гаминг Цзян; Чженгьян Ван; Бинксуан Хуан; Руруи Ли; Шиян Ли; Чжэн Ли; Йифан Гао; Сянь Ли; Бинг Инь; Yizhou Sun.