欢迎来到我们的 GitHub 存储库!该存储库致力于整理强化学习 (RL)领域的重要研究论文,这些论文已被AAAI 、 IJCAI 、 NeurIPS 、 ICML 、 ICLR 、 ICRA 、 AAMAS等顶级学术会议接受。我们为您提供便捷的资源中心,帮助您及时了解强化学习的最新动态、深入研究研究趋势、探索前沿算法和方法。
降价格式:
- **Paper Name**.
[[pdf](link)]
[[code](link)]
- Author 1, Author 2, and Author 3. *conference, year*.
请联系我或添加拉取请求来帮助贡献此列表。
如有任何疑问,请随时与我联系?
离线分散多智能体强化学习的在线调优。 [pdf]
奖励离线多智能体强化学习的中毒攻击。 [pdf]
模型作为代理:优化基于模型的多代理强化学习中交互式局部模型的多步预测。 [pdf]
DeCOM:约束合作多智能体强化学习的分解策略。 [pdf]
量子多智能体元强化学习。 [pdf]
通过极化策略梯度学习显式信用分配以实现协作多智能体强化学习。 [pdf]
从离线多智能体强化学习中的良好轨迹中学习。 [pdf]
DM²:通过分布匹配的去中心化多智能体强化学习。 [pdf]
协作多智能体强化学习的共识学习。 [pdf]
HAVEN:具有双重协调机制的分层合作多智能体强化学习。 [pdf]
DACOM:用于多智能体强化学习的学习延迟感知通信。 [pdf]
经过认证的合作多智能体强化学习策略平滑。 [pdf]
通过博弈论和多智能体强化学习及其在乘车共享中的应用来增强智能、可持续的移动性。 [pdf]
通过动态屏蔽实现安全高效的多智能体强化学习(学生摘要)。 [pdf]
用于自适应网格细化的多智能体强化学习。 [pdf]
多智能体强化学习的自适应学习率。 [pdf]
协作多智能体强化学习的自适应价值分解与贪婪边际贡献计算。 [pdf]
多智能体强化学习的基于相互信息的协调的变分方法。 [pdf]
中介多智能体强化学习。 [pdf]
EXPODE:利用策略差异进行多智能体强化学习的有效探索。 [pdf]
AC2C:用于多代理强化学习的自适应控制两跳通信。 [pdf]
学习多智能体强化学习的结构化通信。 [pdf]
多智能体强化学习中基于模型的稀疏通信。 [pdf]
顺序合作多智能体强化学习。 [pdf]
用于高效实时多机器人协作探索的异步多智能体强化学习。 [pdf]
向多智能体强化学习中的多个独立顾问学习。 [pdf]
CraftEnv:用于多智能体强化学习的灵活集体机器人构建环境。 [pdf]
具有主动电压控制安全层的多智能体强化学习。 [pdf]
基于模型的动态屏蔽,用于安全高效的多智能体强化学习。 [pdf]
面向合作多智能体强化学习的基于风险的乐观探索。 [pdf]
多智能体强化学习中的反例引导策略细化。 [pdf]
多任务协作多智能体强化学习的优先任务挖掘。 [pdf]
TransfQMix:利用多智能体强化学习问题的图结构的 Transformer。 [pdf]
通过网络修剪进行参数共享,实现可扩展的多代理深度强化学习。 [pdf]
解释多智能体深度强化学习模型中的动作序列。 [pdf]
用于高频多做市的多智能体深度强化学习。 [pdf]
多智能体强化学习中的学习个体差异奖励。 [pdf]
与众不同的多智能体强化学习。 [pdf]
有选择地共享经验可以改善多智能体强化学习。 [pdf]
Off-the-Grid MARL:离线多智能体强化学习的数据集和基线。 [pdf]
多智能体强化学习中通信的灰盒对抗攻击。 [pdf]
用于住宅负荷快速需求响应的多智能体强化学习。 [pdf]
通过利他主义多智能体强化学习学习自由形式模块化机器人的自我重新配置。 [pdf]
通过强化学习和混合奖励进行多代理路径查找。 [pdf]
使用深度多代理强化学习的大型经济网络中的学习解决方案。 [pdf]
具有耦合价值分解的离线多智能体强化学习。 [pdf]
高效多智能体强化学习的因果关系检测。 [pdf]
状态不确定性下多智能体强化学习的基于注意力的复现。 [pdf]
使用多智能体强化学习的公平传输网络设计。 [pdf]
多目标多代理系统中的强化学习。 [pdf]
利用博弈论和多智能体强化学习增强智能、可持续的移动性。 [pdf]
状态主动促进者:合作多智能体强化学习中的协调和环境异质性。 [pdf]
MACTA:一种用于缓存定时攻击和检测的多代理强化学习方法。 [pdf]
MAESTRO:多智能体强化学习的开放式环境设计。 [pdf]
多智能体强化学习模型的扩展定律。 [pdf]
RPM:用于多智能体强化学习的通用多智能体策略。 [pdf]
多智能体强化学习中的廉价对话发现和利用。 [pdf]
订单很重要:逐个代理策略优化。 [pdf]
用于协作多智能体强化学习的上下文感知贝叶斯网络演员批评家方法。 [pdf]
多智能体强化学习中具有语言基础的实体划分器。 [pdf]
预言者和追随者:深度多智能体强化学习中的 Stackelberg 均衡。 [pdf]
多智能体强化学习的自适应熵正则化框架。 [pdf]
RACE:通过表示不对称和协作进化改进多智能体强化学习。 [pdf]
惰性代理:解决多代理强化学习中稀疏奖励问题的新视角。 [pdf]
协作多智能体强化学习:异步通信和线性函数逼近。 [pdf]
通过智能信息聚合的可扩展多代理强化学习。 [pdf]
随机部分可观测性下多智能体强化学习的基于注意的循环。 [pdf]
多智能体强化学习的补充注意力。 [pdf]
局部优化在多智能体强化学习中实现全局最优。 [pdf]
使用深度多智能体强化学习的分散式异构无人机群的多目标追踪。 [pdf]
多代理强化学习的可解释行动建议。 [pdf]
具有挑战性的场景中联网自动驾驶车辆的时空感知安全多智能体强化学习。 [pdf]
用于停车轨迹规划的冲突约束多智能体强化学习方法。 [pdf]
用于时间查询的可解释多代理强化学习。 [pdf]
通过基于 Transformer 的电子邮件机制实现多代理强化学习的可扩展通信。 [pdf]
学习发送增援:通过强化学习协调多智能体动态警察巡逻调度和重新调度。 [pdf]
协作多智能体强化学习中的分散异常检测。 [pdf]
GPLight:用于大规模交通信号控制的分组多智能体强化学习。 [pdf]
多智能体强化学习中的深层层次通信图。 [pdf]
通过多智能体强化学习对社会困境中的道德选择进行建模。 [pdf]
通过多智能体强化学习中的时空顺序决策诱导 Stackelberg 均衡。 [pdf]
具有多智能体强化学习的自监督神经元分割。 [pdf]
MA2CL:用于多智能体强化学习的蒙面注意力对比学习。 [pdf]
基于拍卖的联邦学习的竞争合作多智能体强化学习。 [pdf]
DPMAC:用于协作多智能体强化学习的差分隐私通信。 [pdf]
如果您在研究中使用此工具箱,请引用此项目。
@misc{YalunAwesome,
author = {Yalun Wu},
title = {Reinforcement-Learning-Papers},
year = {2023},
howpublished = {url{https://github.com/Allenpandas/Reinforcement-Learning-Papers}}
}