Reinforcement Learning Papers下载 - Reinforcement Learning Papers源码下载

强化学习！

欢迎来到我们的 GitHub 存储库！该存储库致力于整理强化学习 (RL)领域的重要研究论文，这些论文已被AAAI 、 IJCAI 、 NeurIPS 、 ICML 、 ICLR 、 ICRA 、 AAMAS等顶级学术会议接受。我们为您提供便捷的资源中心，帮助您及时了解强化学习的最新动态、深入研究研究趋势、探索前沿算法和方法。

消息

2023/11/12：我添加了相关的存储库。
2023/8/19：我添加了 AAMAS'23、IJCAI'23、ICRA'23、ICML'23、ICLR'23、AAAI'23、NeurIPS'22 等接受的论文
2023/1/6：我创建了存储库。

贡献

我们需要你！

降价格式：

 - **Paper Name**.
  [[pdf](link)]
  [[code](link)]
  - Author 1, Author 2, and Author 3. *conference, year*.

请联系我或添加拉取请求来帮助贡献此列表。

如有任何疑问，请随时与我联系？

离线分散多智能体强化学习的在线调优。 [pdf]
- 姜杰川，卢宗庆. AAAI 2023 。
奖励离线多智能体强化学习的中毒攻击。 [pdf]
- 吴扬，杰里米·麦克马汉，朱晓金，谢巧敏。 AAAI 2023 。
模型作为代理：优化基于模型的多代理强化学习中交互式局部模型的多步预测。 [pdf]
- 吴子凡、于超、陈晨、郝建业、Hankz 卓汉奎。 AAAI 2023 。
DeCOM：约束合作多智能体强化学习的分解策略。 [pdf]
- 杨兆兴，金海明，丁荣，游浩一，范桂云，王新兵，周成虎。 AAAI 2023 。
量子多智能体元强化学习。 [pdf]
- 尹元俊、朴智弘、金仲宪。 AAAI 2023 。
通过极化策略梯度学习显式信用分配以实现协作多智能体强化学习。 [pdf]
- 陈武兵，李文斌，刘晓，杨尚东，高阳。 AAAI 2023 。
从离线多智能体强化学习中的良好轨迹中学习。 [pdf]
- 齐田，匡坤，刘福瑞，王宝祥。 AAAI 2023 。
DM²：通过分布匹配的去中心化多智能体强化学习。 [pdf]
- 卡罗琳·王、伊山·杜鲁格卡、埃拉德·利布曼、彼得·斯通。 AAAI 2023 。
协作多智能体强化学习的共识学习。 [pdf]
- 徐志伟，张斌，李大鹏，张泽仁，周光崇，陈浩，范国良。 AAAI 2023 。
HAVEN：具有双重协调机制的分层合作多智能体强化学习。 [pdf]
- 徐志伟，白云鹏，张斌，李大鹏，范国良。 AAAI 2023 。
DACOM：用于多智能体强化学习的学习延迟感知通信。 [pdf]
- 袁婷婷，钟惠明，袁洁，付晓明。 AAAI 2023 。
经过认证的合作多智能体强化学习策略平滑。 [pdf]
- 穆荣辉，阮文杰，Leandro Soriano Marcolino，金高杰，倪强。 AAAI 2023 。
通过博弈论和多智能体强化学习及其在乘车共享中的应用来增强智能、可持续的移动性。 [pdf]
- 露西娅·西波利娜-昆。 AAAI 2023 。
通过动态屏蔽实现安全高效的多智能体强化学习（学生摘要）。 [pdf]
- 肖文丽，吕一伟，约翰·M·多兰。 AAAI 2023 。
用于自适应网格细化的多智能体强化学习。 [pdf]
- Jiachen Yang、Ketan Mittal、Tarik Dzanic、Socratis Petrides、Brendan Keith、Brenden K. Petersen、Daniel M. Faissol、Robert W. Anderson。美国医学会 2023 年。
多智能体强化学习的自适应学习率。 [pdf]
- 姜杰川，卢宗庆.美国医学会 2023 年。
协作多智能体强化学习的自适应价值分解与贪婪边际贡献计算。 [pdf]
- 刘善奇，胡玉晶，吴润泽，邢东，熊宇，范长杰，匡坤，刘勇。美国医学会 2023 年。
多智能体强化学习的基于相互信息的协调的变分方法。 [pdf]
- 金宇俊、郑惠英、赵明植、成永哲。美国医学会 2023 年。
中介多智能体强化学习。 [pdf]
- 德米特里·伊万诺夫、伊利亚·齐斯曼、基里尔·切尔尼雪夫。美国医学会 2023 年。
EXPODE：利用策略差异进行多智能体强化学习的有效探索。 [pdf]
- 张宇聪，余超.美国医学会 2023 年。
AC2C：用于多代理强化学习的自适应控制两跳通信。 [pdf]
- 王雪峰，李欣然，邵家伟，张军。美国医学会 2023 年。
学习多智能体强化学习的结构化通信。 [pdf]
- 盛俊杰、王向峰、金波、李文浩、王俊、严俊驰、张宗辉、查宏远。美国医学会 2023 年。
多智能体强化学习中基于模型的稀疏通信。 [pdf]
- 韩帅、迈赫迪·达斯塔尼、王诗涵。美国医学会 2023 年。
顺序合作多智能体强化学习。 [pdf]
- 臧一帆，何金民，李凯，付浩波，付强，邢俊良。美国医学会 2023 年。
用于高效实时多机器人协作探索的异步多智能体强化学习。 [pdf]
- 余超、杨欣怡、高家轩、陈家宇、李云飞、刘继佳、项云飞、黄瑞新、杨华中、吴一、王宇。美国医学会 2023 年。
向多智能体强化学习中的多个独立顾问学习。 [pdf]
- 斯里拉姆·加纳帕蒂·萨勃拉曼尼安、马修·E·泰勒、凯特·拉尔森、马克·克劳利。美国医学会 2023 年。
CraftEnv：用于多智能体强化学习的灵活集体机器人构建环境。 [pdf]
- 赵锐、刘旭、张亦正、李明浩、周成、李帅、韩雷。美国医学会 2023 年。
具有主动电压控制安全层的多智能体强化学习。 [pdf]
- 施玉峰，冯明晓，王敏瑞，周文刚，李厚强。美国医学会 2023 年。
基于模型的动态屏蔽，用于安全高效的多智能体强化学习。 [pdf]
- 肖文丽，吕一伟，约翰·M·多兰。美国医学会 2023 年。
面向合作多智能体强化学习的基于风险的乐观探索。 [pdf]
- Jihwan Oh、Joonkee Kim、Minchan Jeong、Se-Young Yun。美国医学会 2023 年。
多智能体强化学习中的反例引导策略细化。 [pdf]
- Briti Gangopadhyay、Pallab Dasgupta、Soumyajit Dey。美国医学会 2023 年。
多任务协作多智能体强化学习的优先任务挖掘。 [pdf]
- 杨宇，尹启跃，张俊格，黄凯奇。美国医学会 2023 年。
TransfQMix：利用多智能体强化学习问题的图结构的 Transformer。 [pdf]
- 马泰奥·加利奇、马里奥·马丁、伊万·马斯米贾。美国医学会 2023 年。
通过网络修剪进行参数共享，实现可扩展的多代理深度强化学习。 [pdf]
- 金宇俊、成英哲。美国医学会 2023 年。
解释多智能体深度强化学习模型中的动作序列。 [pdf]
- Khaing Phyo Wai、Minghong Geng、Budhitama Subagdja、Shubham Pateria、Ah-Hwee Tan。美国医学会 2023 年。
用于高频多做市的多智能体深度强化学习。 [pdf]
- 潘卡吉·库马尔。美国医学会 2023 年。
多智能体强化学习中的学习个体差异奖励。 [pdf]
- 杨陈，杨光凯，张俊革。美国医学会 2023 年。
与众不同的多智能体强化学习。 [pdf]
- 邱伟、王伟勋、王润东、安波、胡玉晶、斯韦特兰娜·奥布拉佐娃、季诺维·拉宾诺维奇、郝建业、陈迎峰、范长杰。美国医学会 2023 年。
有选择地共享经验可以改善多智能体强化学习。 [pdf]
- 马蒂亚斯·格斯特格拉瑟、汤姆·达尼诺、莎拉·克伦。美国医学会 2023 年。
Off-the-Grid MARL：离线多智能体强化学习的数据集和基线。 [pdf]
- 克劳德·福马内克、阿萨德·吉瓦、乔纳森·P·肖克、阿努·普雷托利斯。美国医学会 2023 年。
多智能体强化学习中通信的灰盒对抗攻击。 [pdf]
- 小马，李武军。美国医学会 2023 年。
用于住宅负荷快速需求响应的多智能体强化学习。 [pdf]
- Vincent Mai、Philippe Maisonneuve、张天宇、Hadi Nekoei、Liam Paull、Antoine Lesage-Landry。美国医学会 2023 年。
通过利他主义多智能体强化学习学习自由形式模块化机器人的自我重新配置。 [pdf]
- 吴磊，郭斌，张秋云，孙卓，张洁一，于志文。美国医学会 2023 年。
通过强化学习和混合奖励进行多代理路径查找。 [pdf]
- 赵成，庄连胜，刘浩南，黄一红，杨健。美国医学会 2023 年。
使用深度多代理强化学习的大型经济网络中的学习解决方案。 [pdf]
- 迈克尔·库里、亚历山大·特洛特、索汉姆·菲德、宇白、史蒂芬·郑。美国医学会 2023 年。
具有耦合价值分解的离线多智能体强化学习。 [pdf]
- 王祥森，詹贤元。美国医学会 2023 年。
高效多智能体强化学习的因果关系检测。 [pdf]
- 拉斐尔·皮纳、瓦鲁纳·德·席尔瓦、科朗坦·阿尔托。美国医学会 2023 年。
状态不确定性下多智能体强化学习的基于注意力的复现。 [pdf]
- Thomy Phan、Fabian Ritz、Jonas Nüßlein、Michael Kölle、Thomas Gabor、Claudia Linnhoff-Popien。美国医学会 2023 年。
使用多智能体强化学习的公平传输网络设计。 [pdf]
- 迪米特里斯·米凯利迪斯。美国医学会 2023 年。
多目标多代理系统中的强化学习。 [pdf]
- 威廉·罗普克.美国医学会 2023 年。
利用博弈论和多智能体强化学习增强智能、可持续的移动性。 [pdf]
- 露西娅·西波利娜-昆。美国医学会 2023 年。
状态主动促进者：合作多智能体强化学习中的协调和环境异质性。 [pdf]
- 刘殿波、Vedant Shah、Oussama Boussif、Cristian Meo、Anirudh Goyal、舒天民、Michael Curtis Mozer、Nicolas Heess、Yoshua Bengio。 ICLR 2023 。
MACTA：一种用于缓存定时攻击和检测的多代理强化学习方法。 [pdf]
- 崔家勋、杨小萌、罗木龙、Geunbae Lee、Peter Stone、Hsien-Hsin S. Lee、Benjamin Lee、G. Edward Suh、Wenjie Xiong、Yuandong Tian。 ICLR 2023 。
MAESTRO：多智能体强化学习的开放式环境设计。 [pdf]
- 米卡耶尔·萨姆维利安、阿克比尔·汗、迈克尔·丹尼斯、蒋敏琪、杰克·帕克-霍尔德、雅各布·尼古拉斯·福斯特、罗伯塔·莱莱亚努、蒂姆·洛克塔舍尔。 ICLR 2023 。
多智能体强化学习模型的扩展定律。 [pdf]
- 奥伦·诺伊曼，克劳迪斯·格罗斯。 ICLR 2023 。
RPM：用于多智能体强化学习的通用多智能体策略。 [pdf]
- 邱伟，马晓，安波，斯韦特兰娜·奥布拉佐娃，严水成，徐仲文。 ICLR 2023 。
多智能体强化学习中的廉价对话发现和利用。 [pdf]
- 罗逸朗、克里斯蒂安·施罗德·德威特、塞缪尔·索科塔、雅各布·尼古拉斯·福斯特、西蒙·怀特森。 ICLR 2023 。
订单很重要：逐个代理策略优化。 [pdf]
- 王喜槐，田正，万子玉，文颖，王军，张伟南。 ICLR 2023 。
用于协作多智能体强化学习的上下文感知贝叶斯网络演员批评家方法。 [pdf]
- 陈定阳，张琪. ICML 2023 。
多智能体强化学习中具有语言基础的实体划分器。 [pdf]
- 丁子洛，张万鹏，岳俊鹏，王向军，黄铁军，卢宗庆。 ICML 2023 。
预言者和追随者：深度多智能体强化学习中的 Stackelberg 均衡。 [pdf]
- 马蒂亚斯·格斯特格拉瑟、大卫·C·帕克斯。 ICML 2023 。
多智能体强化学习的自适应熵正则化框架。 [pdf]
- 金宇俊、成英哲。 ICML 2023 。
RACE：通过表示不对称和协作进化改进多智能体强化学习。 [pdf]
- 李鹏毅，郝建业，唐宏耀，郑严，付贤。 ICML 2023 。
惰性代理：解决多代理强化学习中稀疏奖励问题的新视角。 [pdf]
- 刘博银，濮志强，潘毅，易建强，梁艳艳，张杜。 ICML 2023 。
协作多智能体强化学习：异步通信和线性函数逼近。 [pdf]
- 闵一飞，何家凡，王天浩，顾泉泉。 ICML 2023 。
通过智能信息聚合的可扩展多代理强化学习。 [pdf]
- Siddharth Nayak、Kenneth Choi、丁文琪、Sydney Dolan、Karthik Gopalakrishnan、Hamsa Balakrishnan。 ICML 2023 。
随机部分可观测性下多智能体强化学习的基于注意的循环。 [pdf]
- Thomy Phan、Fabian Ritz、Philipp Altmann、Maximilian Zorn、Jonas Nüßlein、Michael Kölle、Thomas Gabor、Claudia Linnhoff-Popien。 ICML 2023 。
多智能体强化学习的补充注意力。 [pdf]
- 邵建准，张宏昌，屈云，刘昌，何顺成，姜宇航，纪向阳。 ICML 2023 。
局部优化在多智能体强化学习中实现全局最优。 [pdf]
- 赵玉来，杨卓然，王兆然，Jason D. Lee。 ICML 2023 。
使用深度多智能体强化学习的分散式异构无人机群的多目标追踪。 [pdf]
- Maryam Kouzeghar、Youngbin Song、Malika Meghjani、Roland Bouffanais。 ICRA 2023 。
多代理强化学习的可解释行动建议。 [pdf]
- 郭跃、约瑟夫·坎贝尔、西蒙·斯特普蒂斯、李瑞宇、达纳·休斯、方飞、卡蒂亚·P·西卡拉。 ICRA 2023 。
具有挑战性的场景中联网自动驾驶车辆的时空感知安全多智能体强化学习。 [pdf]
- 张志立，韩松阳，王江伟，苗飞。 ICRA 2023 。
用于停车轨迹规划的冲突约束多智能体强化学习方法。 [pdf]
- 陈思源，王美玲，杨易，宋文杰。 ICRA 2023 。
用于时间查询的可解释多代理强化学习。 [pdf]
- 凯拉·博格斯、萨里特·克劳斯、陆峰。 IJCAI 2023 。
通过基于 Transformer 的电子邮件机制实现多代理强化学习的可扩展通信。 [pdf]
- 郭旭东，史大明，范文辉。 IJCAI 2023 。
学习发送增援：通过强化学习协调多智能体动态警察巡逻调度和重新调度。 [pdf]
- 沃尔迪·乔，刘洪泉。 IJCAI 2023 。
协作多智能体强化学习中的分散异常检测。 [pdf]
- 基亚拉什·卡扎里 (Kiarash Kazari)、埃泽尔丁·谢林 (Ezzeldin Shereen)、吉尔吉·丹 (György Dán)。 IJCAI 2023 。
GPLight：用于大规模交通信号控制的分组多智能体强化学习。 [pdf]
- 刘依林，罗桂阳，袁泉，李静林，金雷，陈波，潘锐。 IJCAI 2023 。
多智能体强化学习中的深层层次通信图。 [pdf]
- 刘泽阳，万利鹏，隋雪，陈卓然，孙克武，兰旭光。 IJCAI 2023 。
通过多智能体强化学习对社会困境中的道德选择进行建模。 [pdf]
- 伊丽莎白·坦南特、史蒂芬·海尔斯、米尔科·穆索莱西。 IJCAI 2023 。
通过多智能体强化学习中的时空顺序决策诱导 Stackelberg 均衡。 [pdf]
- 张斌，李丽娟，徐志伟，李大鹏，范国良。 IJCAI 2023 。
具有多智能体强化学习的自监督神经元分割。 [pdf]
- 陈银达，黄伟，周胜龙，陈琪，熊志伟。 IJCAI 2023 。
MA2CL：用于多智能体强化学习的蒙面注意力对比学习。 [pdf]
- 宋浩林，冯明晓，周文刚，李厚强。 IJCAI 2023 。
基于拍卖的联邦学习的竞争合作多智能体强化学习。 [pdf]
- 唐晓丽，韩宇. IJCAI 2023 。
DPMAC：用于协作多智能体强化学习的差分隐私通信。 [pdf]
- 赵灿哲、泽艳杰、董靖、王宝祥、李帅。 IJCAI 2023 。

2_元强化学习

基于自监督任务表示学习的元强化学习。 [pdf]
- 王明阳、冰振山、姚向同、王帅、黄凯、苏航、杨晨光、阿洛伊斯·诺尔。 AAAI 2023 。
量子多智能体元强化学习。 [pdf]
- 尹元俊、朴智弘、金仲宪。 AAAI 2023 。
用于元安全强化学习的 CMDP 在线框架。 [pdf]
- Vanshaj Khattar、丁宇豪、Bilgehan Sel、Javad Lavaei、金明。 ICLR 2023 。
分布式元梯度强化学习。 [pdf]
- 殷海燕，严水成，徐仲文。 ICLR 2023 。
简单的具身语言学习是元强化学习的副产品。 [pdf]
- Evan Zheran Liu、Sahaana Suri、Tong Mu、Allan Zhou、Chelsea Finn。 ICML 2023 。
具有分布式在线适应的离线元强化学习。 [pdf]
- 王建豪，张进，姜浩哲，张俊宇，王立伟，张崇杰。 ICML 2023 。
通过语言指令进行元强化学习。 [pdf]
- 冰振山，亚历山大·W·科赫，姚向同，黄凯，阿洛伊斯·诺尔。 ICRA 2023 。
零样本策略转移与元强化学习的解缠结任务表示。 [pdf]
- 吴征、谢一尘、连文钊、王昌浩、郭彦江、陈建宇、Stefan Schaal、Masayoshi Tomizuka。 ICRA 2023 。

3_分层强化学习

HAVEN：具有双重协调机制的分层合作多智能体强化学习。 [pdf]
- 徐志伟，白云鹏，张斌，李大鹏，范国良。 AAAI 2023 。
大规模多智能体系统的分层平均场深度强化学习。 [pdf]
- 晁宇. AAAI 2023 。
具有人机协作子目标优化的分层强化学习。 [pdf]
- 马浩哲、Thanh Vinh Vo、梁子云。美国医学会 2023 年。
用于临时团队的分层强化学习。 [pdf]
- 斯特凡·阿罗卡-乌莱特、米格尔·阿罗卡-乌莱特、乌帕萨纳·比斯瓦斯、卡塔琳娜·卡恩、亚历山德罗·朗科内。美国医学会 2023 年。
使用选项索引分层强化学习将选项与任务匹配。 [pdf]
- Kushal Chauhan、Soumya Chatterjee、Akash Reddy、Aniruddha S、Balaraman Ravindran、Pradeep Shenoy。美国医学会 2023 年。
具有注意力奖励的分层强化学习。 [pdf]
- 罗思红，陈景浩，胡正，张春红，庄本辉。美国医学会 2023 年。
通过学习编写程序进行分层程序强化学习。 [pdf]
- 刘冠廷、胡恩培、郑普仁、李鸿毅、孙少华。 ICML 2023 。
通过分层深度强化学习自适应且可解释地部署导航技能。 [pdf]
- 李奎云、金圣君、崔在锡。 ICRA 2023 。

4_多任务强化学习

PiCor：具有策略校正的多任务深度强化学习。 [pdf]
- 白峰硕，张宏明，陶天阳，吴志恒，王燕娜，徐波。 AAAI 2023 。
多任务协作多智能体强化学习的优先任务挖掘。 [pdf]
- 杨宇，尹启跃，张俊格，黄凯奇。美国医学会 2023 年。
研究强化学习中的多任务预训练和泛化。 [pdf]
- 阿德里安·阿里·泰加、瑞沙布·阿加瓦尔、杰西·法雷布拉泽、亚伦·C·库尔维尔、马克·G·贝尔马尔。 ICLR 2023 。
通过多任务强化学习演示引导自主练习。 [pdf]
- 阿布舍克·古普塔、科里·林奇、布兰登·金曼、加勒特·皮克、谢尔盖·莱文、卡罗尔·豪斯曼。 ICRA 2023 。

5_离线强化学习

保守方式的离线量子强化学习。 [pdf]
- 程志豪，张凯宁，沉力，陶大成。 AAAI 人工智能会议（AAAI 2023）。
关于具有相关样本的基于普通模型的离线强化学习的样本复杂性。 [pdf]
- 穆斯塔法·卡拉巴格 (Mustafa O. Karabag)、乌福克·托普库 (Ufuk Topcu)。 AAAI 人工智能会议（AAAI 2023）。

6_逆强化学习

逆强化学习中的错误指定。 [pdf]
- 乔尔·斯卡尔斯，亚历山德罗·阿巴特。 AAAI 2023 。
通过心理理论推理的多智能体逆强化学习。 [pdf]
- 吴浩辰、佩德罗·塞奎拉、大卫·V·皮纳达斯。美国医学会 2023 年。
平均场游戏的对抗性逆强化学习。 [pdf]
- 陈阳，张立波，刘佳谋，迈克尔·维特布罗克。美国医学会 2023 年。
基于 LTL 的非马尔可夫逆强化学习。 [pdf]
- 穆罕默德·阿夫扎尔、桑卡尔普·甘比尔、阿舒托什·古普塔、圣克里希纳、阿舒托什·特里维迪、阿尔瓦罗·维拉斯奎兹。美国医学会 2023 年。
LS-IQ：逆强化学习的隐式奖励正则化。 [pdf]
- Firas Al-Hafez、Davide Tateo、Oleg Arenz、赵国平、Jan Peters。 ICLR 2023 。
通过逆强化学习进行因果模仿学习。 [pdf]
- 阮康瑞，张俊哲，宣迪，Elias Bareinboim。 ICLR 2023 。
逆强化学习中的基准约束推理。 [pdf]
- 刘贵良，罗玉东，Ashish Gaurav，Kasra Rezaee，Pascal Poupart。 ICLR 2023 。
CLARE：用于离线逆强化学习的基于保守模型的奖励学习。 [pdf]
- 盛岳、王冠博、邵伟、张兆峰、林森、任举、张俊山。 ICLR 2023 。
多任务分层对抗性逆强化学习。 [pdf]
- 陈嘉宇、迪佩什·坦博利、天兰、瓦尼特·阿加瓦尔。 ICML 2023 。
走向逆强化学习的理论理解。 [pdf]
- 阿尔贝托·玛丽亚·梅泰利、菲利波·拉扎蒂、马塞洛·雷斯特利。 ICML 2023 。
约束逆强化学习中的可识别性和泛化性。 [pdf]
- 安德烈亚斯·施拉金豪芬，玛丽亚姆·卡姆加普尔。 ICML 2023 。
无强化学习的逆强化学习。 [pdf]
- Gokul Swamy、David Wu、Sanjiban Choudhury、Drew Bagnell、Zhiwei Steven Wu。 ICML 2023 。
用于在制造应用中将任务排序策略从人类转移到机器人的逆强化学习框架。 [pdf]
- 奥梅·M·曼雅尔、扎卡里·麦克纳尔蒂、斯特凡诺斯·尼古拉迪斯、萨蒂安德拉·K·古普塔。 ICRA 2023 。
通过越野导航的逆强化学习学习风险意识成本图。 [pdf]
- 塞缪尔·特里斯特、马特奥·瓜曼·卡斯特罗、帕尔夫·马赫什瓦里、马修·西瓦普拉卡萨姆、王文山、塞巴斯蒂安·A·谢勒。 ICRA 2023 。
DriveIRL：通过逆向强化学习在现实生活中驾驶。 [pdf]
- Tung Phan-Minh、Forbes Howington、Ting-Sheng Chu、Momchil S. Tomov、Robert E. Beaudoin、Sang Uk Lee、Nanshan Li、Caglayan Dicle、Samuel Findler、Francisco Suárez-Ruiz、Bo Yang、Sammy Omari、Eric M.沃尔夫. ICRA 2023 。
告诉我你想要什么：逆强化学习通过演示自动设计机器人群。 [pdf]
- 伊利亚斯·加尔比、乔纳斯·库克林、大卫·加尔松-拉莫斯、毛罗·比拉塔里。 ICRA 2023 。
用于机器人控制的选项感知对抗性逆强化学习。 [pdf]
- 陈嘉宇、天兰、瓦尼特·阿加瓦尔。 ICRA 2023 。
SoLo T-DIRL：基于轨迹排名深度逆强化学习的社交感知动态局部规划器。 [pdf]
- 徐一凡、Theodor Chakhachiro、Tribhi Kathuria、Maani Ghaffari。 ICRA 2023 。
InitLight：使用对抗性逆强化学习生成交通信号控制的初始模型。 [pdf]
- 叶雨桐，周英波，丁洁品，王婷，陈明松，廉湘。 IJCAI 2023 。

7_大型语言模型的强化学习

根据人类偏好进行深度强化学习。 [pdf]
- Paul F. Christiano、Jan Leike、Tom Brown、Miljan Martic、Shane Legg、Dario Amodei NeurIPS 2017 。
训练语言模型以遵循人类反馈的指令。 [pdf]
- 欧阳龙、吴杰弗里、徐江、迪奥戈·阿尔梅达、卡罗尔·温赖特、帕梅拉·米什金、张冲、桑迪尼·阿加瓦尔、卡塔琳娜·斯拉玛、亚历克斯·雷、约翰·舒尔曼、雅各布·希尔顿、弗雷泽·凯尔顿、卢克·米勒、麦迪·西蒙斯、阿曼达·阿斯克尔、彼得·韦林德，保罗·F·克里斯蒂安诺，简·雷克，瑞安·洛。神经IPS 2022 。
直接偏好优化：您的语言模型实际上是一个奖励模型。 [pdf]
- 拉斐尔·拉法洛夫、阿奇特·夏尔马、埃里克·米切尔、斯特凡诺·埃尔蒙、克里斯托弗·D·曼宁、切尔西·芬恩。神经IPS 2023 。
使用大型语言模型指导强化学习的预训练。 [pdf]
- 杜玉清、奥利维亚·沃特金斯、王子涵、塞德里克·科拉斯、特雷弗·达雷尔、彼得·阿贝尔、阿布舍克·古普塔、雅各布·安德烈亚斯。 ICML 2023 。
使用语言模型进行奖励设计。 [pdf]
- Minae Kwon、Sang Michael Xie、Kalesha Bullard、Dorsa Sadigh。 ICLR 2023 。
用于交互式决策的预训练语言模型。 [pdf]
- 李爽、Xavier Puig、Chris Paxton、杜逸伦、Clinton Wang、范林西、陈涛、黄德安、Ekin Akyürek、Anima Anandkumar、Jacob Andreas、Igor Mordatch、Antonio Torralba、朱雨柯。神经IPS 2022 。

引文

如果您在研究中使用此工具箱，请引用此项目。

 @misc{YalunAwesome,
    author = {Yalun Wu},
    title = {Reinforcement-Learning-Papers},
    year = {2023},
    howpublished = {url{https://github.com/Allenpandas/Reinforcement-Learning-Papers}}
}

展开