歡迎來到我們的 GitHub 儲存庫!該儲存庫致力於整理強化學習 (RL)領域的重要研究論文,這些論文已被AAAI 、 IJCAI 、 NeurIPS 、 ICML 、 ICLR 、 ICRA 、 AAMAS等頂級學術會議接受。我們為您提供便利的資源中心,幫助您隨時了解強化學習的最新動態、深入研究研究趨勢、探索前沿演算法和方法。
降價格式:
- **Paper Name**.
[[pdf](link)]
[[code](link)]
- Author 1, Author 2, and Author 3. *conference, year*.
請聯絡我或新增拉取請求來協助貢獻此清單。
如有任何疑問,請隨時與我聯絡?
離線分散多智能體強化學習的線上調優。 [pdf]
獎勵離線多智能體強化學習的中毒攻擊。 [pdf]
模型作為代理:優化基於模型的多代理強化學習中互動式局部模型的多步驟預測。 [pdf]
DeCOM:約束合作多智能體強化學習的分解策略。 [pdf]
量子多智能體元強化學習。 [pdf]
透過極化策略梯度學習顯性信用分配以實現協作多智能體強化學習。 [pdf]
從離線多智能體強化學習中的良好軌跡學習。 [pdf]
DM²:透過分佈匹配的去中心化多智能體強化學習。 [pdf]
協作多智能體強化學習的共識學習。 [pdf]
HAVEN:具有雙重協調機制的分層合作多智能體強化學習。 [pdf]
DACOM:用於多智能體強化學習的學習延遲感知通訊。 [pdf]
經過認證的合作多智能體強化學習策略平滑。 [pdf]
透過博弈論和多智能體強化學習及其在乘車共享中的應用來增強智慧、可持續的移動性。 [pdf]
透過動態屏蔽實現安全高效的多智能體強化學習(學生摘要)。 [pdf]
用於自適應網格細化的多智能體強化學習。 [pdf]
多智能體強化學習的自適應學習率。 [pdf]
協作多智能體強化學習的自適應價值分解與貪婪邊際貢獻計算。 [pdf]
多智能體強化學習的基於相互資訊的協調的變分方法。 [pdf]
中介多智能體強化學習。 [pdf]
EXPODE:利用策略差異進行多智能體強化學習的有效探索。 [pdf]
AC2C:用於多代理強化學習的自適應控制兩跳通訊。 [pdf]
學習多智能體強化學習的結構化溝通。 [pdf]
多智能體強化學習中基於模型的稀疏通訊。 [pdf]
順序合作多智能體強化學習。 [pdf]
用於高效即時多機器人協作探索的非同步多智能體強化學習。 [pdf]
向多智能體強化學習中的多位獨立顧問學習。 [pdf]
CraftEnv:用於多智能體強化學習的靈活集體機器人建構環境。 [pdf]
具有主動電壓控制安全層的多智能體強化學習。 [pdf]
基於模型的動態屏蔽,用於安全且高效的多智能體強化學習。 [pdf]
面向合作多智能體強化學習的基於風險的樂觀探索。 [pdf]
多智能體強化學習中的反例引導策略精進。 [pdf]
多工協作多智能體強化學習的優先任務挖掘。 [pdf]
TransfQMix:利用多智能體強化學習問題的圖結構的 Transformer。 [pdf]
透過網路修剪進行參數共享,實現可擴展的多代理深度強化學習。 [pdf]
解釋多智能體深度強化學習模型中的動作序列。 [pdf]
用於高頻多做市的多智能體深度強化學習。 [pdf]
多智能體強化學習中的學習個體差異獎勵。 [pdf]
與眾不同的多智能體強化學習。 [pdf]
選擇性地共享經驗可以改善多智能體強化學習。 [pdf]
Off-the-Grid MARL:離線多智能體強化學習的資料集與基線。 [pdf]
多智能體強化學習中溝通的灰盒對抗攻擊。 [pdf]
用於住宅負載快速需求反應的多智能體強化學習。 [pdf]
透過利他主義多智能體強化學習學習自由形式模組化機器人的自我重新配置。 [pdf]
透過強化學習和混合獎勵進行多代理路徑查找。 [pdf]
使用深度多代理強化學習的大型經濟網路中的學習解決方案。 [pdf]
具有耦合價值分解的離線多智能體強化學習。 [pdf]
高效能多智能體強化學習的因果關係檢測。 [pdf]
狀態不確定性下多智能體強化學習的基於注意力的復現。 [pdf]
使用多智能體強化學習的公平傳輸網路設計。 [pdf]
多目標多代理系統中的強化學習。 [pdf]
利用博弈論和多智能體強化學習增強智能、可持續的移動性。 [pdf]
狀態主動促進者:合作多智能體強化學習中的協調與環境異質性。 [pdf]
MACTA:一種用於快取定時攻擊和偵測的多代理強化學習方法。 [pdf]
MAESTRO:多智能體強化學習的開放式環境設計。 [pdf]
多智能體強化學習模型的擴展定律。 [pdf]
RPM:多智能體強化學習的一般多智能體策略。 [pdf]
多智能體強化學習中的廉價對話發現與利用。 [pdf]
訂單很重要:逐一代理策略優化。 [pdf]
用於協作多智能體強化學習的上下文感知貝葉斯網路演員批評者方法。 [pdf]
多智能體強化學習中具有語言基礎的實體分割器。 [pdf]
預言者與跟隨者:深度多智能體強化學習中的 Stackelberg 均衡。 [pdf]
多智能體強化學習的自適應熵正則化框架。 [pdf]
RACE:透過表示不對稱和協作進化改進多智能體強化學習。 [pdf]
惰性代理:解決多代理強化學習中稀疏獎勵問題的新視野。 [pdf]
協作多智能體強化學習:非同步通訊與線性函數逼近。 [pdf]
透過智慧資訊聚合的可擴展多代理強化學習。 [pdf]
隨機部分可觀測性下多智能體強化學習的基於注意力的循環。 [pdf]
多智能體強化學習的補充注意力。 [pdf]
局部最佳化在多智能體強化學習中實現全局最優。 [pdf]
使用深度多智能體強化學習的分散式異質無人機群的多目標追蹤。 [pdf]
多代理強化學習的可解釋行動建議。 [pdf]
在具有挑戰性的場景中連網自動駕駛車輛的時空感知安全多智能體強化學習。 [pdf]
用於停車軌跡規劃的衝突約束多智能體強化學習方法。 [pdf]
用於時間查詢的可解釋多代理強化學習。 [pdf]
透過基於 Transformer 的電子郵件機制實現多代理強化學習的可擴展通訊。 [pdf]
學習發送增援:透過強化學習協調多智能體動態警察巡邏調度和重新調度。 [pdf]
協作多智能體強化學習中的分散異常檢測。 [pdf]
GPLight:用於大規模交通號誌控制的分組多智能體強化學習。 [pdf]
多智能體強化學習中的深層層次通訊圖。 [pdf]
透過多智能體強化學習對社會困境中的道德選擇進行建模。 [pdf]
透過多智能體強化學習中的時空順序決策誘導 Stackelberg 均衡。 [pdf]
具有多智能體強化學習的自監督神經元分割。 [pdf]
MA2CL:用於多智能體強化學習的蒙面注意力對比學習。 [pdf]
基於拍賣的聯邦學習的競爭合作多智能體強化學習。 [pdf]
DPMAC:用於協作多智能體強化學習的差分隱私通訊。 [pdf]
如果您在研究中使用此工具箱,請引用此項目。
@misc{YalunAwesome,
author = {Yalun Wu},
title = {Reinforcement-Learning-Papers},
year = {2023},
howpublished = {url{https://github.com/Allenpandas/Reinforcement-Learning-Papers}}
}