Добро пожаловать в наш репозиторий GitHub! Этот репозиторий предназначен для хранения важных исследовательских работ в области обучения с подкреплением (RL) , которые были приняты на ведущих академических конференциях, таких как AAAI , IJCAI , NeurIPS , ICML , ICLR , ICRA , AAMAS и других. Мы предоставляем вам удобный центр ресурсов, который поможет вам оставаться в курсе последних событий в области обучения с подкреплением, углубляться в тенденции исследований и изучать передовые алгоритмы и методы.
Формат уценки:
- **Paper Name**.
[[pdf](link)]
[[code](link)]
- Author 1, Author 2, and Author 3. *conference, year*.
Пожалуйста, помогите пополнить этот список, связавшись со мной или добавив запрос на включение.
По любым вопросам обращайтесь ко мне?.
Онлайн-настройка для автономного децентрализованного многоагентного обучения с подкреплением. [pdf]
Атаки с отравлением вознаграждением при автономном многоагентном обучении с подкреплением. [pdf]
Модели как агенты: оптимизация многоэтапных прогнозов интерактивных локальных моделей в многоагентном обучении с подкреплением на основе моделей. [pdf]
DeCOM: декомпозированная политика для ограниченного совместного многоагентного обучения с подкреплением. [pdf]
Квантовое многоагентное обучение с мета-подкреплением. [pdf]
Обучение явному присвоению кредитов для совместного многоагентного обучения с подкреплением с помощью градиента политики поляризации. [pdf]
Обучение на хороших траекториях в автономном многоагентном обучении с подкреплением. [pdf]
DM²: децентрализованное многоагентное обучение с подкреплением посредством сопоставления распределения. [pdf]
Консенсусное обучение для совместного многоагентного обучения с подкреплением. [pdf]
HAVEN: Иерархическое совместное многоагентное обучение с подкреплением с двойным механизмом координации. [pdf]
DACOM: обучение коммуникации с учетом задержек для многоагентного обучения с подкреплением. [pdf]
Сертифицированное сглаживание политик для совместного многоагентного обучения с подкреплением. [pdf]
Улучшение умной и устойчивой мобильности с помощью теории игр и многоагентного обучения с подкреплением с помощью приложений для совместного использования поездок. [pdf]
Обеспечение безопасного и эффективного многоагентного обучения с подкреплением посредством динамического экранирования (конспект студента). [pdf]
Многоагентное обучение с подкреплением для адаптивного уточнения сетки. [pdf]
Адаптивная скорость обучения для многоагентного обучения с подкреплением. [pdf]
Адаптивная декомпозиция значений с жадным вычислением предельного вклада для совместного многоагентного обучения с подкреплением. [pdf]
Вариационный подход к взаимной информационной координации для многоагентного обучения с подкреплением. [pdf]
Опосредованное многоагентное обучение с подкреплением. [pdf]
EXPODE: Использование несоответствия в политике для эффективного исследования в многоагентном обучении с подкреплением. [pdf]
AC2C: адаптивно управляемая двухступенчатая связь для многоагентного обучения с подкреплением. [pdf]
Обучение структурированной коммуникации для многоагентного обучения с подкреплением. [pdf]
Разреженная коммуникация на основе моделей в многоагентном обучении с подкреплением. [pdf]
Последовательное совместное многоагентное обучение с подкреплением. [pdf]
Асинхронное многоагентное обучение с подкреплением для эффективной совместной работы нескольких роботов в режиме реального времени. [pdf]
Обучение у нескольких независимых консультантов в области многоагентного обучения с подкреплением. [pdf]
CraftEnv: гибкая коллективная роботизированная среда конструирования для многоагентного обучения с подкреплением. [pdf]
Многоагентное обучение с подкреплением с уровнем безопасности для активного управления напряжением. [pdf]
Динамическое экранирование на основе моделей для безопасного и эффективного многоагентного обучения с подкреплением. [pdf]
На пути к оптимистическому исследованию на основе рисков для совместного многоагентного обучения с подкреплением. [pdf]
Уточнение политики в многоагентном обучении с подкреплением на основе контрпримеров. [pdf]
Анализ приоритетных задач для многозадачного совместного многоагентного обучения с подкреплением. [pdf]
TransfQMix: преобразователи для использования структуры графа в задачах многоагентного обучения с подкреплением. [pdf]
Совместное использование параметров с сокращением сети для масштабируемого многоагентного глубокого обучения с подкреплением. [pdf]
К объяснению последовательностей действий в многоагентных моделях глубокого обучения с подкреплением. [pdf]
Многоагентное глубокое обучение с подкреплением для высокочастотного создания мультирынков. [pdf]
Изучение вознаграждений за индивидуальные различия в многоагентном обучении с подкреплением. [pdf]
Нестандартное мультиагентное обучение с подкреплением. [pdf]
Выборочный обмен опытом улучшает многоагентное обучение с подкреплением. [pdf]
Автономный MARL: наборы данных и базовые показатели для автономного многоагентного обучения с подкреплением. [pdf]
Состязательная атака серого ящика на коммуникацию в многоагентном обучении с подкреплением. [pdf]
Многоагентное обучение с подкреплением для быстрого реагирования на спрос жилых нагрузок. [pdf]
Обучение самореконфигурации модульных роботов произвольной формы с помощью альтруистического многоагентного обучения с подкреплением. [pdf]
Многоагентный поиск пути посредством обучения с подкреплением и гибридным вознаграждением. [pdf]
Решения для обучения в крупных экономических сетях с использованием глубокого многоагентного обучения с подкреплением. [pdf]
Автономное многоагентное обучение с подкреплением с факторизацией связанных значений. [pdf]
Обнаружение причинно-следственной связи для эффективного многоагентного обучения с подкреплением. [pdf]
Рекуррентность на основе внимания для многоагентного обучения с подкреплением в условиях неопределенности состояния. [pdf]
Справедливое проектирование транспортной сети с использованием многоагентного обучения с подкреплением. [pdf]
Обучение с подкреплением в многоцелевых многоагентных системах. [pdf]
Улучшение умной и устойчивой мобильности с помощью теории игр и многоагентного обучения с подкреплением. [pdf]
Активный фасилитатор с сохранением состояния: координация и неоднородность окружающей среды в совместном многоагентном обучении с подкреплением. [pdf]
MACTA: многоагентный подход к обучению с подкреплением для атак и обнаружения по времени кэша. [pdf]
MAESTRO: Проектирование открытой среды для многоагентного обучения с подкреплением. [pdf]
Законы масштабирования для модели многоагентного обучения с подкреплением. [pdf]
RPM: Обобщенные многоагентные политики для многоагентного обучения с подкреплением. [pdf]
Обнаружение и использование дешевых разговоров в многоагентном обучении с подкреплением. [pdf]
Заказ имеет значение: оптимизация политики для каждого агента. [pdf]
Контекстно-зависимые методы байесовской сети для совместного многоагентного обучения с подкреплением. [pdf]
Разделитель сущностей с языковой основой в многоагентном обучении с подкреплением. [pdf]
Оракулы и последователи: равновесия Штакельберга в глубоком многоагентном обучении с подкреплением. [pdf]
Адаптивная структура энтропийной регуляризации для многоагентного обучения с подкреплением. [pdf]
RACE: Улучшите многоагентное обучение с подкреплением с помощью асимметрии представления и совместной эволюции. [pdf]
Ленивые агенты: новый взгляд на решение проблемы разреженного вознаграждения в многоагентном обучении с подкреплением. [pdf]
Совместное многоагентное обучение с подкреплением: асинхронная связь и аппроксимация линейных функций. [pdf]
Масштабируемое многоагентное обучение с подкреплением посредством интеллектуального агрегирования информации. [pdf]
Рекуррентность, основанная на внимании, для многоагентного обучения с подкреплением в условиях стохастической частичной наблюдаемости. [pdf]
Дополнительное внимание к многоагентному обучению с подкреплением. [pdf]
Локальная оптимизация обеспечивает глобальную оптимальность в многоагентном обучении с подкреплением. [pdf]
Преследование нескольких целей децентрализованным гетерогенным роем БПЛА с использованием глубокого многоагентного обучения с подкреплением. [pdf]
Объяснимые рекомендации по действиям для многоагентного обучения с подкреплением. [pdf]
Безопасное многоагентное обучение подключенных автономных транспортных средств с пространственно-временным учетом в сложных сценариях. [pdf]
Многоагентный метод обучения с подкреплением при наличии конфликтов для планирования траектории парковки. [pdf]
Объяснимое многоагентное обучение с подкреплением для временных запросов. [pdf]
Масштабируемая связь для многоагентного обучения с подкреплением с помощью механизма электронной почты на основе преобразователя. [pdf]
Обучение отправке подкреплений: координация отправки и изменения графика многоагентного динамического полицейского патруля посредством обучения с подкреплением. [pdf]
Децентрализованное обнаружение аномалий в совместном многоагентном обучении с подкреплением. [pdf]
GPLight: сгруппированное многоагентное обучение с подкреплением для крупномасштабного управления светофорами. [pdf]
Глубокий иерархический коммуникационный граф в многоагентном обучении с подкреплением. [pdf]
Моделирование морального выбора в социальных дилеммах с помощью многоагентного обучения с подкреплением. [pdf]
Обеспечение равновесия Штакельберга посредством пространственно-временного последовательного принятия решений в многоагентном обучении с подкреплением. [pdf]
Самоконтролируемая сегментация нейронов с многоагентным обучением с подкреплением. [pdf]
MA2CL: Внимательное контрастное обучение в маске для многоагентного обучения с подкреплением. [pdf]
Конкурентно-кооперативное многоагентное обучение с подкреплением для федеративного обучения на основе аукционов. [pdf]
DPMAC: дифференциально-частное общение для совместного многоагентного обучения с подкреплением. [pdf]
Если вы используете этот набор инструментов в своих исследованиях, пожалуйста, укажите этот проект.
@misc{YalunAwesome,
author = {Yalun Wu},
title = {Reinforcement-Learning-Papers},
year = {2023},
howpublished = {url{https://github.com/Allenpandas/Reinforcement-Learning-Papers}}
}