Reinforcement Learning Papers下載 - Reinforcement Learning Papers原始碼下載

強化學習！

歡迎來到我們的 GitHub 儲存庫！該儲存庫致力於整理強化學習 (RL)領域的重要研究論文，這些論文已被AAAI 、 IJCAI 、 NeurIPS 、 ICML 、 ICLR 、 ICRA 、 AAMAS等頂級學術會議接受。我們為您提供便利的資源中心，幫助您隨時了解強化學習的最新動態、深入研究研究趨勢、探索前沿演算法和方法。

訊息

2023/11/12：我新增了相關的儲存庫。
2023/8/19：我加入了 AAMAS'23、IJCAI'23、ICRA'23、ICML'23、ICLR'23、AAAI'23、NeurIPS'22 等接受的論文
2023/1/6：我創建了儲存庫。

貢獻

我們需要你！

降價格式：

 - **Paper Name**.
  [[pdf](link)]
  [[code](link)]
  - Author 1, Author 2, and Author 3. *conference, year*.

請聯絡我或新增拉取請求來協助貢獻此清單。

如有任何疑問，請隨時與我聯絡？

離線分散多智能體強化學習的線上調優。 [pdf]
- 姜傑川，盧宗慶. AAAI 2023 。
獎勵離線多智能體強化學習的中毒攻擊。 [pdf]
- 吳揚，傑瑞米‧麥克馬漢，朱曉金，謝巧敏。 AAAI 2023 。
模型作為代理：優化基於模型的多代理強化學習中互動式局部模型的多步驟預測。 [pdf]
- 吳子凡、於超、陳晨、郝建業、Hankz 卓漢奎。 AAAI 2023 。
DeCOM：約束合作多智能體強化學習的分解策略。 [pdf]
- 楊兆興，金海明，丁榮，遊浩一，範桂雲，王新兵，周成虎。 AAAI 2023 。
量子多智能體元強化學習。 [pdf]
- 尹元俊、朴智弘、金仲憲。 AAAI 2023 。
透過極化策略梯度學習顯性信用分配以實現協作多智能體強化學習。 [pdf]
- 陳武兵，李文斌，劉曉，楊尚東，高陽。 AAAI 2023 。
從離線多智能體強化學習中的良好軌跡學習。 [pdf]
- 齊田，匡坤，劉福瑞，王寶祥。 AAAI 2023 。
DM²：透過分佈匹配的去中心化多智能體強化學習。 [pdf]
- 卡洛琳王、伊山杜魯格卡、埃拉德利布曼、彼得史東。 AAAI 2023 。
協作多智能體強化學習的共識學習。 [pdf]
- 徐志偉，張斌，李大鵬，張澤仁，周光崇，陳浩，範國良。 AAAI 2023 。
HAVEN：具有雙重協調機制的分層合作多智能體強化學習。 [pdf]
- 徐志偉，白雲鵬，張斌，李大鵬，範國良。 AAAI 2023 。
DACOM：用於多智能體強化學習的學習延遲感知通訊。 [pdf]
- 袁婷婷，鐘惠明，袁潔，付曉明。 AAAI 2023 。
經過認證的合作多智能體強化學習策略平滑。 [pdf]
- 穆榮輝，阮文傑，Leandro Soriano Marcolino，金高傑，倪強。 AAAI 2023 。
透過博弈論和多智能體強化學習及其在乘車共享中的應用來增強智慧、可持續的移動性。 [pdf]
- 露西婭·西波利娜-昆。 AAAI 2023 。
透過動態屏蔽實現安全高效的多智能體強化學習（學生摘要）。 [pdf]
- 肖文麗，呂一偉，約翰·M·多蘭。 AAAI 2023 。
用於自適應網格細化的多智能體強化學習。 [pdf]
- Jiachen Yang、Ketan Mittal、Tarik Dzanic、Socratis Petrides、Brendan Keith、Brenden K. Petersen、Daniel M. Faissol、Robert W. Anderson。美國醫學會 2023 年。
多智能體強化學習的自適應學習率。 [pdf]
- 姜傑川，盧宗慶.美國醫學會 2023 年。
協作多智能體強化學習的自適應價值分解與貪婪邊際貢獻計算。 [pdf]
- 劉善奇，胡玉晶，吳潤澤，邢東，熊宇，範長傑，匡坤，劉勇。美國醫學會 2023 年。
多智能體強化學習的基於相互資訊的協調的變分方法。 [pdf]
- 金宇俊、鄭惠英、趙明植、成永哲。美國醫學會 2023 年。
中介多智能體強化學習。 [pdf]
- 德米特里·伊万諾夫、伊利亞·齊斯曼、基里爾·切爾尼雪夫。美國醫學會 2023 年。
EXPODE：利用策略差異進行多智能體強化學習的有效探索。 [pdf]
- 張宇聰，餘超.美國醫學會 2023 年。
AC2C：用於多代理強化學習的自適應控制兩跳通訊。 [pdf]
- 王雪峰，李欣然，邵家偉，張軍。美國醫學會 2023 年。
學習多智能體強化學習的結構化溝通。 [pdf]
- 盛俊傑、王向峰、金波、李文浩、王俊、嚴俊馳、張宗輝、查宏遠。美國醫學會 2023 年。
多智能體強化學習中基於模型的稀疏通訊。 [pdf]
- 韓帥、邁赫迪·達斯塔尼、王詩涵。美國醫學會 2023 年。
順序合作多智能體強化學習。 [pdf]
- 臧一帆，何金民，李凱，付浩波，付強，邢俊良。美國醫學會 2023 年。
用於高效即時多機器人協作探索的非同步多智能體強化學習。 [pdf]
- 餘超、楊欣怡、高家軒、陳家宇、李雲飛、劉繼佳、項雲飛、黃瑞新、楊華中、吳一、王宇。美國醫學會 2023 年。
向多智能體強化學習中的多位獨立顧問學習。 [pdf]
- 斯里拉姆·加納帕蒂·薩勃拉曼尼安、馬修·E·泰勒、凱特·拉爾森、馬克·克勞利。美國醫學會 2023 年。
CraftEnv：用於多智能體強化學習的靈活集體機器人建構環境。 [pdf]
- 趙銳、劉旭、張亦正、李明浩、周成、李帥、韓雷。美國醫學會 2023 年。
具有主動電壓控制安全層的多智能體強化學習。 [pdf]
- 施玉峰，馮明曉，王敏瑞，周文剛，李厚強。美國醫學會 2023 年。
基於模型的動態屏蔽，用於安全且高效的多智能體強化學習。 [pdf]
- 肖文麗，呂一偉，約翰·M·多蘭。美國醫學會 2023 年。
面向合作多智能體強化學習的基於風險的樂觀探索。 [pdf]
- Jihwan Oh、Joonkee Kim、Minchan Jeong、Se-Young Yun。美國醫學會 2023 年。
多智能體強化學習中的反例引導策略精進。 [pdf]
- Briti Gangopadhyay、Pallab Dasgupta、Soumyajit Dey。美國醫學會 2023 年。
多工協作多智能體強化學習的優先任務挖掘。 [pdf]
- 楊宇，尹啟躍，張俊格，黃凱奇。美國醫學會 2023 年。
TransfQMix：利用多智能體強化學習問題的圖結構的 Transformer。 [pdf]
- 馬泰奧·加利奇、馬裡奧·馬丁、伊凡·馬斯米賈。美國醫學會 2023 年。
透過網路修剪進行參數共享，實現可擴展的多代理深度強化學習。 [pdf]
- 金宇俊、成英哲。美國醫學會 2023 年。
解釋多智能體深度強化學習模型中的動作序列。 [pdf]
- Khaing Phyo Wai、Minghong Geng、Budhitama Subagdja、Shubham Pateria、Ah-Hwee Tan。美國醫學會 2023 年。
用於高頻多做市的多智能體深度強化學習。 [pdf]
- 潘卡吉·庫馬爾。美國醫學會 2023 年。
多智能體強化學習中的學習個體差異獎勵。 [pdf]
- 楊陳，楊光凱，張俊革。美國醫學會 2023 年。
與眾不同的多智能體強化學習。 [pdf]
- 邱偉、王偉勳、王潤東、安波、胡玉晶、斯韋特蘭娜·奧布拉佐娃、季諾維·拉賓諾維奇、郝建業、陳迎峰、範長傑。美國醫學會 2023 年。
選擇性地共享經驗可以改善多智能體強化學習。 [pdf]
- 馬蒂亞斯·格斯特格拉瑟、湯姆·達尼諾、莎拉·克倫。美國醫學會 2023 年。
Off-the-Grid MARL：離線多智能體強化學習的資料集與基線。 [pdf]
- 克勞德·福馬內克、阿薩德·吉瓦、喬納森·P·肖克、阿努·普雷托利斯。美國醫學會 2023 年。
多智能體強化學習中溝通的灰盒對抗攻擊。 [pdf]
- 小馬，李武軍。美國醫學會 2023 年。
用於住宅負載快速需求反應的多智能體強化學習。 [pdf]
- Vincent Mai、Philippe Maisonneuve、張天宇、Hadi Nekoei、Liam Paull、Antoine Lesage-Landry。美國醫學會 2023 年。
透過利他主義多智能體強化學習學習自由形式模組化機器人的自我重新配置。 [pdf]
- 吳磊，郭斌，張秋雲，孫卓，張潔一，於志文。美國醫學會 2023 年。
透過強化學習和混合獎勵進行多代理路徑查找。 [pdf]
- 趙成，莊連勝，劉浩南，黃一紅，楊健。美國醫學會 2023 年。
使用深度多代理強化學習的大型經濟網路中的學習解決方案。 [pdf]
- 麥可庫裡、亞歷山大特洛特、索漢姆菲德、宇白、史蒂芬鄭。美國醫學會 2023 年。
具有耦合價值分解的離線多智能體強化學習。 [pdf]
- 王祥森，詹賢元。美國醫學會 2023 年。
高效能多智能體強化學習的因果關係檢測。 [pdf]
- 拉斐爾·皮納、瓦魯納·德·席爾瓦、科朗坦·阿爾托。美國醫學會 2023 年。
狀態不確定性下多智能體強化學習的基於注意力的復現。 [pdf]
- Thomy Phan、Fabian Ritz、Jonas Nüßlein、Michael Kölle、Thomas Gabor、Claudia Linnhoff-Popien。美國醫學會 2023 年。
使用多智能體強化學習的公平傳輸網路設計。 [pdf]
- 迪米特里斯·米凱利迪斯。美國醫學會 2023 年。
多目標多代理系統中的強化學習。 [pdf]
- 威廉·羅普克.美國醫學會 2023 年。
利用博弈論和多智能體強化學習增強智能、可持續的移動性。 [pdf]
- 露西婭·西波利娜-昆。美國醫學會 2023 年。
狀態主動促進者：合作多智能體強化學習中的協調與環境異質性。 [pdf]
- 劉殿波、Vedant Shah、Oussama Boussif、Cristian Meo、Anirudh Goyal、舒天民、Michael Curtis Mozer、Nicolas Heess、Yoshua Bengio。 ICLR 2023 。
MACTA：一種用於快取定時攻擊和偵測的多代理強化學習方法。 [pdf]
- 崔家勳、楊小萌、羅木龍、Geunbae Lee、Peter Stone、Hsien-Hsin S. Lee、Benjamin Lee、G. Edward Suh、Wenjie Xiong、Yuandong Tian。 ICLR 2023 。
MAESTRO：多智能體強化學習的開放式環境設計。 [pdf]
- 米卡耶爾·薩姆維利安、阿克比爾·汗、麥可·丹尼斯、蔣敏琪、傑克·帕克-霍爾德、雅各·尼古拉斯·福斯特、羅伯塔·萊萊亞努、蒂姆·洛克塔舍爾。 ICLR 2023 。
多智能體強化學習模型的擴展定律。 [pdf]
- 奧倫·諾伊曼，克勞迪斯·格羅斯。 ICLR 2023 。
RPM：多智能體強化學習的一般多智能體策略。 [pdf]
- 邱偉，馬曉，安波，斯韋特蘭娜‧奧布拉佐娃，嚴水成，徐仲文。 ICLR 2023 。
多智能體強化學習中的廉價對話發現與利用。 [pdf]
- 羅逸朗、克里斯蒂安·施羅德·德威特、塞繆爾·索科塔、雅各布·尼古拉斯·福斯特、西蒙·懷特森。 ICLR 2023 。
訂單很重要：逐一代理策略優化。 [pdf]
- 王喜槐，田正，萬子玉，文穎，王軍，張偉南。 ICLR 2023 。
用於協作多智能體強化學習的上下文感知貝葉斯網路演員批評者方法。 [pdf]
- 陳定陽，張琪. ICML 2023 。
多智能體強化學習中具有語言基礎的實體分割器。 [pdf]
- 丁子洛，張萬鵬，岳俊鵬，王向軍，黃鐵軍，盧宗慶。 ICML 2023 。
預言者與跟隨者：深度多智能體強化學習中的 Stackelberg 均衡。 [pdf]
- 馬蒂亞斯·格斯特格拉瑟、大衛·C·帕克斯。 ICML 2023 。
多智能體強化學習的自適應熵正則化框架。 [pdf]
- 金宇俊、成英哲。 ICML 2023 。
RACE：透過表示不對稱和協作進化改進多智能體強化學習。 [pdf]
- 李鵬毅，郝建業，唐宏耀，鄭嚴，付賢。 ICML 2023 。
惰性代理：解決多代理強化學習中稀疏獎勵問題的新視野。 [pdf]
- 劉博銀，濮志強，潘毅，易建強，梁艷艷，張杜。 ICML 2023 。
協作多智能體強化學習：非同步通訊與線性函數逼近。 [pdf]
- 閔一飛，何家凡，王天浩，顧泉泉。 ICML 2023 。
透過智慧資訊聚合的可擴展多代理強化學習。 [pdf]
- Siddharth Nayak、Kenneth Choi、丁文琪、Sydney Dolan、Karthik Gopalakrishnan、Hamsa Balakrishnan。 ICML 2023 。
隨機部分可觀測性下多智能體強化學習的基於注意力的循環。 [pdf]
- Thomy Phan、Fabian Ritz、Philipp Altmann、Maximilian Zorn、Jonas Nüßlein、Michael Kölle、Thomas Gabor、Claudia Linnhoff-Popien。 ICML 2023 。
多智能體強化學習的補充注意力。 [pdf]
- 邵建準，張宏昌，屈雲，劉昌，何順成，姜宇航，紀向陽。 ICML 2023 。
局部最佳化在多智能體強化學習中實現全局最優。 [pdf]
- 趙玉來，楊卓然，王兆然，Jason D. Lee。 ICML 2023 。
使用深度多智能體強化學習的分散式異質無人機群的多目標追蹤。 [pdf]
- Maryam Kouzeghar、Youngbin Song、Malika Meghjani、Roland Bouffanais。 ICRA 2023 。
多代理強化學習的可解釋行動建議。 [pdf]
- 郭躍、約瑟夫·坎貝爾、西蒙·斯特普蒂斯、李瑞宇、達納·休斯、方飛、卡蒂亞·P·西卡拉。 ICRA 2023 。
在具有挑戰性的場景中連網自動駕駛車輛的時空感知安全多智能體強化學習。 [pdf]
- 張志立，韓松陽，王江偉，苗飛。 ICRA 2023 。
用於停車軌跡規劃的衝突約束多智能體強化學習方法。 [pdf]
- 陳思源，王美玲，楊易，宋文傑。 ICRA 2023 。
用於時間查詢的可解釋多代理強化學習。 [pdf]
- 凱拉·博格斯、薩里特·克勞斯、陸峰。 IJCAI 2023 。
透過基於 Transformer 的電子郵件機制實現多代理強化學習的可擴展通訊。 [pdf]
- 郭旭東，史大明，範文輝。 IJCAI 2023 。
學習發送增援：透過強化學習協調多智能體動態警察巡邏調度和重新調度。 [pdf]
- 沃爾迪喬，劉洪泉。 IJCAI 2023 。
協作多智能體強化學習中的分散異常檢測。 [pdf]
- 卡扎里 (Kiarash Kazari)、埃澤爾丁·謝林 (Ezzeldin Shereen)、吉爾吉·丹 (György Dán)。 IJCAI 2023 。
GPLight：用於大規模交通號誌控制的分組多智能體強化學習。 [pdf]
- 劉依林，羅桂陽，袁泉，李靜林，金雷，陳波，潘銳。 IJCAI 2023 。
多智能體強化學習中的深層層次通訊圖。 [pdf]
- 劉澤陽，萬利鵬，隋雪，陳卓然，孫克武，蘭旭光。 IJCAI 2023 。
透過多智能體強化學習對社會困境中的道德選擇進行建模。 [pdf]
- 伊莉莎白·坦南特、史蒂芬·海爾斯、米爾科·穆索萊西。 IJCAI 2023 。
透過多智能體強化學習中的時空順序決策誘導 Stackelberg 均衡。 [pdf]
- 張斌，李麗娟，許志偉，李大鵬，範國良。 IJCAI 2023 。
具有多智能體強化學習的自監督神經元分割。 [pdf]
- 陳銀達，黃偉，週勝龍，陳琪，熊志偉。 IJCAI 2023 。
MA2CL：用於多智能體強化學習的蒙面注意力對比學習。 [pdf]
- 宋浩林，馮明曉，周文剛，李厚強。 IJCAI 2023 。
基於拍賣的聯邦學習的競爭合作多智能體強化學習。 [pdf]
- 唐曉麗，韓宇. IJCAI 2023 。
DPMAC：用於協作多智能體強化學習的差分隱私通訊。 [pdf]
- 趙燦哲、澤艷傑、董靖、王寶祥、李帥。 IJCAI 2023 。

2_元強化學習

基於自監督任務表示學習的後設強化學習。 [pdf]
- 王明陽、冰振山、姚向同、王帥、黃凱、蘇航、楊晨光、阿洛伊斯‧諾爾。 AAAI 2023 。
量子多智能體元強化學習。 [pdf]
- 尹元俊、朴智弘、金仲憲。 AAAI 2023 。
用於元安全強化學習的 CMDP 線上框架。 [pdf]
- Vanshaj Khattar、丁宇豪、Bilgehan Sel、Javad Lavaei、金明。 ICLR 2023 。
分佈式元梯度強化學習。 [pdf]
- 殷海燕，嚴水成，徐仲文。 ICLR 2023 。
簡單的具身語言學習是後設強化學習的副產品。 [pdf]
- Evan Zheran Liu、Sahaana Suri、Tong Mu、Allan Zhou、Chelsea Finn。 ICML 2023 。
具有分散式在線適應的離線元強化學習。 [pdf]
- 王建豪，張進，姜浩哲，張俊宇，王立偉，張崇傑。 ICML 2023 。
透過語言指令進行元強化學習。 [pdf]
- 冰振山，亞歷山大·W·科赫，姚向同，黃凱，阿洛伊斯·諾爾。 ICRA 2023 。
零樣本策略轉移與元強化學習的解纏結任務表示。 [pdf]
- 吳徵、謝一塵、連文鑷、王昌浩、郭彥江、陳建宇、Stefan Schaal、Masayoshi Tomizuka。 ICRA 2023 。

3_分層強化學習

HAVEN：具有雙重協調機制的分層合作多智能體強化學習。 [pdf]
- 徐志偉，白雲鵬，張斌，李大鵬，範國良。 AAAI 2023 。
大規模多智能體系統的分層平均場深度強化學習。 [pdf]
- 晁宇. AAAI 2023 。
具有人機協作子目標最佳化的分層強化學習。 [pdf]
- 馬浩哲、Thanh Vinh Vo、梁子雲。美國醫學會 2023 年。
用於臨時團隊的分層強化學習。 [pdf]
- 史特凡·阿羅卡-烏萊特、米格爾·阿羅卡-烏萊特、烏帕薩納·比斯瓦斯、卡塔琳娜·卡恩、亞歷山德羅·朗科內。美國醫學會 2023 年。
使用選項索引分層強化學習將選項與任務配對。 [pdf]
- Kushal Chauhan、Soumya Chatterjee、Akash Reddy、Aniruddha S、Balaraman Ravindran、Pradeep Shenoy。美國醫學會 2023 年。
具有註意力獎勵的分層強化學習。 [pdf]
- 羅思紅，陳景浩，胡正，張春紅，莊本輝。美國醫學會 2023 年。
透過學習編寫程式進行分層程式強化學習。 [pdf]
- 劉冠廷、胡恩培、鄭普仁、李鴻毅、孫少華。 ICML 2023 。
透過分層深度強化學習自適應且可解釋地部署導航技能。 [pdf]
- 李奎雲、金聖君、崔在錫。 ICRA 2023 。

4_多任務強化學習

PiCor：具有策略校正的多任務深度強化學習。 [pdf]
- 白峰碩，張宏明，陶天陽，吳志恆，王燕娜，徐波。 AAAI 2023 。
多工協作多智能體強化學習的優先任務挖掘。 [pdf]
- 楊宇，尹啟躍，張俊格，黃凱奇。美國醫學會 2023 年。
研究強化學習中的多任務預訓練和泛化。 [pdf]
- 阿德里安·阿里·泰加、瑞沙布·阿加瓦爾、傑西·法雷布拉澤、亞倫·C·庫爾維爾、馬克·G·貝爾馬爾。 ICLR 2023 。
透過多任務強化學習演示引導自主練習。 [pdf]
- 阿布舍克古普塔、科里林奇、布蘭登金曼、加勒特皮克、謝爾蓋萊文、卡羅爾豪斯曼。 ICRA 2023 。

5_離線強化學習

保守方式的離線量子強化學習。 [pdf]
- 程志豪，張凱寧，沉力，陶大成。 AAAI 人工智慧會議（AAAI 2023）。
關於具有相關樣本的基於普通模型的離線強化學習的樣本複雜性。 [pdf]
- 穆斯塔法‧卡拉巴格 (Mustafa O. Karabag)、烏福克‧托普庫 (Ufuk Topcu)。 AAAI 人工智慧會議（AAAI 2023）。

6_逆強化學習

逆強化學習中的錯誤指定。 [pdf]
- 喬爾·斯卡爾斯，亞歷山德羅·阿巴特。 AAAI 2023 。
透過心理理論推理的多智能體逆增強學習。 [pdf]
- 吳浩辰、佩德羅·塞奎拉、大衛·V·皮納達斯。美國醫學會 2023 年。
平均場遊戲的對抗性逆增強學習。 [pdf]
- 陳陽，張立波，劉佳謀，麥可‧維特布羅克。美國醫學會 2023 年。
基於 LTL 的非馬可夫逆強化學習。 [pdf]
- 穆罕默德·阿夫扎爾、桑卡爾普·甘比爾、阿舒托什·古普塔、聖克里希納、阿舒托什·特里維迪、阿爾瓦羅·維拉斯奎茲。美國醫學會 2023 年。
LS-IQ：逆增強學習的隱式獎勵正規化。 [pdf]
- Firas Al-Hafez、Davide Tateo、Oleg Arenz、趙國平、Jan Peters。 ICLR 2023 。
透過逆強化學習進行因果模仿學習。 [pdf]
- 阮康瑞，張俊哲，宣迪，Elias Bareinboim。 ICLR 2023 。
逆強化學習中的基準約束推理。 [pdf]
- 劉貴良，羅玉東，Ashish Gaurav，Kasra Rezaee，Pascal Poupart。 ICLR 2023 。
CLARE：用於離線逆強化學習的基於保守模型的獎勵學習。 [pdf]
- 盛岳、王冠博、邵偉、張兆峰、林森、任舉、張俊山。 ICLR 2023 。
多任務分層對抗性逆強化學習。 [pdf]
- 陳嘉宇、迪佩什坦博利、天蘭、瓦尼特阿加瓦爾。 ICML 2023 。
走向逆增強學習的理論理解。 [pdf]
- 阿爾貝托·瑪麗亞·梅泰利、菲利波·拉扎蒂、馬塞洛·雷斯特利。 ICML 2023 。
約束逆強化學習中的可辨識性和泛化性。 [pdf]
- 安德烈亞斯·施拉金豪芬，瑪麗亞姆·卡姆加普爾。 ICML 2023 。
無增強學習的逆強化學習。 [pdf]
- Gokul Swamy、David Wu、Sanjiban Choudhury、Drew Bagnell、Zhiwei Steven Wu。 ICML 2023 。
用於在製造應用中將任務排序策略從人類轉移到機器人的逆強化學習框架。 [pdf]
- 奧梅·M·曼雅爾、扎卡里·麥克納爾蒂、斯特凡諾斯·尼古拉迪斯、薩蒂安德拉·K·古普塔。 ICRA 2023 。
透過越野導航的逆強化學習學習風險意識成本圖。 [pdf]
- 塞繆爾·特里斯特、馬特奧·瓜曼·卡斯特羅、帕爾夫·馬赫什瓦里、馬修·西瓦普拉卡薩姆、王文山、塞巴斯蒂安·A ·謝勒。 ICRA 2023 。
DriveIRL：透過逆向強化學習在現實生活中駕駛。 [pdf]
- Tung Phan-Minh、Forbes Howington、Ting-Sheng Chu、Momchil S. Tomov、Robert E. Beaudoin、Sang Uk Lee、Nanshan Li、Caglayan Dicle、Samuel Findler、Francisco Suárez-Ruiz、Bo Yang、Sammy Omari、Eric M.沃爾夫. ICRA 2023 。
告訴我你想要什麼：逆強化學習透過示範自動設計機器人群。 [pdf]
- 伊利亞斯·加爾比、喬納斯·庫克林、大衛·加爾松-拉莫斯、毛羅·比拉塔里。 ICRA 2023 。
用於機器人控制的選項感知對抗性逆強化學習。 [pdf]
- 陳嘉宇、天蘭、瓦尼特·阿加瓦爾。 ICRA 2023 。
SoLo T-DIRL：基於軌跡排名深度逆強化學習的社交感知動態局部規劃器。 [pdf]
- 徐一凡、Theodor Chakhachiro、Tribhi Kathuria、Maani Ghaffari。 ICRA 2023 。
InitLight：使用對抗性逆強化學習產生交通號誌控制的初始模型。 [pdf]
- 葉雨桐，周英波，丁潔品，王婷，陳明松，廉潔。 IJCAI 2023 。

7_大型語言模型的強化學習

根據人類偏好進行深度強化學習。 [pdf]
- Paul F. Christiano、Jan Leike、Tom Brown、Miljan Martic、Shane Legg、Dario Amodei NeurIPS 2017 。
訓練語言模型以遵循人類回饋的指令。 [pdf]
- 歐陽龍、吳杰弗裡、徐江、迪奧戈·阿爾梅達、卡羅爾·溫賴特、帕梅拉·米甚金、張衝、桑迪尼·阿加瓦爾、卡塔琳娜·斯拉瑪、亞歷克斯雷、約翰舒曼、雅各希爾頓、弗雷澤凱爾頓、盧克米勒、麥迪西蒙斯、阿曼達阿斯克爾、彼得韋林德，保羅·F·克里斯蒂安諾，簡·雷克，瑞安·洛。神經IPS 2022 。
直接偏好最佳化：您的語言模型實際上是一個獎勵模型。 [pdf]
- 拉斐爾·拉法洛夫、阿奇特·夏爾馬、埃里克·米切爾、斯特凡諾·埃爾蒙、克里斯托弗·D·曼寧、切爾西·芬恩。神經IPS 2023 。
使用大型語言模型指導強化學習的預訓練。 [pdf]
- 杜玉清、奧莉薇亞·沃特金斯、王子涵、塞德里克·科拉斯、崔佛·達雷爾、彼得·阿貝爾、阿布舍克·古普塔、雅各·安德烈亞斯。 ICML 2023 。
使用語言模型進行獎勵設計。 [pdf]
- Minae Kwon、Sang Michael Xie、Kalesha Bullard、Dorsa Sadigh。 ICLR 2023 。
用於互動式決策的預訓練語言模型。 [pdf]
- 李爽、Xavier Puig、Chris Paxton、杜逸倫、Clinton Wang、範林西、陳濤、黃德安、Ekin Akyürek、Anima Anandkumar、Jacob Andreas、Igor Mordatch、Antonio Torralba、朱雨柯。神經IPS 2022 。

引文

如果您在研究中使用此工具箱，請引用此項目。

 @misc{YalunAwesome,
    author = {Yalun Wu},
    title = {Reinforcement-Learning-Papers},
    year = {2023},
    howpublished = {url{https://github.com/Allenpandas/Reinforcement-Learning-Papers}}
}

展開