素晴らしいゲーム
キュレーションされた、しかし不完全な、マルチエージェント学習に関するゲームAIリソースのリスト。
このリストに貢献したい場合は、お気軽にプルリクエストを送信してください。また、[email protected]、または[email protected]にお問い合わせください。
?ニュース:オープンソースの大規模な時系列モデル(LTSM)をチェックしてください!
?データ中心のAIについて聞いたことがありますか?データ中心のAI調査と素晴らしいデータ中心のAIリソースをご覧ください!
ゲームAIとは何ですか?
ゲームAIは、現在の条件に基づいて、どのアクションを実行すべきかを予測することに焦点を当てています。一般的に、ほとんどのゲームには、通常、ゲーム内のキャラクターまたはプレイヤーであるAIのある種のAIが組み込まれています。 StarCraftやDota 2などの人気のあるゲームでは、開発者はAIを設計および改良して体験を強化するために何年も費やしてきました。
シングルエージェントとマルチエージェント
ゲームに1人のプレイヤーがいる単一エージェント環境でゲームAIをゲームと成果を上げています。たとえば、ディープQラーニングはAtari Gamesに正常に適用されます。その他の例には、スーパーマリオ、Minecraft、Flappy Birdが含まれます。
各プレイヤーは他のプレイヤーの動きについて推論しなければならないため、マルチエージェント環境はより困難です。最新の強化学習技術により、マルチエージェントゲームAIが後押しされています。 2015年、Alphagoは、フルサイズの19×19のボードで初めて人間のプロのGoプレーヤーを破りました。 2017年、Alphazeroはゼロから自分自身を教え、チェス、ショギ、そして行くゲームを習得することを学びました。最近では、研究者はLibratus、Deepstack、Douzeroなどのポーカーゲームに努力し、テキサスホールデムおよび中国のポーカーゲームDou Dizhuで専門レベルのパフォーマンスを達成しています。現在、研究者は、DOTA 2とStarCraft 2で、深い強化学習を備えた人間レベルのAIを進歩させ続けています。
完璧な情報対不完全な情報
完璧な情報とは、各プレイヤーがゲームの同じ情報にアクセスできることを意味します。たとえば、Go、Chess、およびGomokuです。不完全な情報とは、プレイヤーがゲームの完全な状態を観察できない状況を指します。たとえば、カードゲームでは、プレイヤーは他のプレイヤーの手を観察できません。不完全な情報ゲームは通常、より多くの可能性を備えたより挑戦的であると考えられています。
何が含まれていますか?
このリポジトリは、オープンソースプロジェクト、レビューペーパー、研究論文、会議、競技など、完璧と不完全な情報ゲームの両方のマルチエージェント学習に関するゲームAIの素晴らしいリソースを集めます。リソースはゲームごとに分類され、論文は年ごとにソートされます。
目次
- オープンソースプロジェクト
- 統一されたツールキット
- テキサスホールデム
- Dou Dizhu
- スタークラフト
- 行く
- ゴモク
- チェス
- 中国のチェス
- レビューと一般論文
- 研究論文
- ゲームゲーム
- Dou Dizhu
- マジョン
- 橋
- 行く
- スタークラフト
- 会議とワークショップ
- 競技
- 関連リスト
オープンソースプロジェクト
統一されたツールキット
- rlcard:カードゲームでの補強学習のためのツールキット[紙] [コード]。
- OpenSpiel:ゲームでの強化学習のフレームワーク[Paper] [Code]。
- Unity ML-Agents Toolkit [Paper] [Code]。
- Alpha Zero General [コード]。
テキサスホールデムプロジェクト
- DeepStack-LEDUC [Paper] [Code]。
- deepholdem [code]。
- Openai Gym No Limit Texasは、強化学習のための環境を保持します[コード]。
- PypokerEngine [コード]。
- PokerStarsおよびPartypokerのためのDeep Mind Pokerbot [コード]。
Dou Dizhuプロジェクト
- PerfectDou:完璧な情報蒸留[コード]でDoudizhuを支配します。
- Douzero:自己プレイの深い補強学習[コード]でDoudizhuを習得します。
- 補強学習[コード]を使用したDoudizhu AI。
- 組み合わせのQラーニング[Paper] [code]を備えたDu di Zhu。
- Doudizhu [コード]。
- 斗地主ai设计与实现[コード]。
スタークラフトプロジェクト
- StarCraft II Learning Environment [Paper] [Code]。
- ジムスタークラフト[コード]。
- StartCraft IIの強化学習例[コード]。
- DeepMindのStarCraft AI環境のガイド[コード]。
- 訓練されたモデルを使用したDIエンジンに基づくアルファスターの再実装[コード]。
プロジェクトに行きます
- ELF:Alphagozero/Alphazero Reimplementation [code] [Paper]を使用したゲーム研究のプラットフォーム。
Gomokuプロジェクト
- Alphazero-Gomoku [コード]。
- GoBang [コード]。
チェスプロジェクト
- チェス・アルファ・ゼロ[コード]。
- ディープピンク[コード]。
- シンプルなチェスAI [コード]。
中国のチェスプロジェクト
マジョンプロジェクト
- ピマジョン(日本のマジョン氏)[コード]。
- Mortal [code]。
レビューと一般論文
- Imperfect-Information Gamesの自己プレイからの深い強化学習、ARXIV 2016 [Paper]。
- マルチエージェント補強学習:概要、2010 [Paper]。
- 協力的で競争力のあるマルチエージェント学習の概要、Lamas 2005 [Paper]。
- マルチエージェント強化学習:重要な調査、2003 [論文]。
研究論文
ゲームゲーム
賭けゲームは、ポーカーゲームの最も人気のある形式の1つです。リストには、Goofspiel、Kuhn Poker、Leduc Poker、Texas Hold'emが含まれます。
- Neural Replicator Dynamics、Arxiv 2019 [Paper]。
- IJCAI 2019 [Paper]、Exploitability Descentによる連続的な敵対的なゲームにおけるコンピューティングの均衡
- 割引された後悔の最小化を介して不完全な情報ゲームを解決する、AAAI 2019 [Paper]。
- 深い反事実的後悔の最小化、ICML、2019 [論文]。
- 部分的に観察可能なマルチエージェント環境における俳優批判の政策最適化、Neurips 2018 [Paper]。
- 不完全な情報ゲーム、Neurips、2018 [Paper]の安全でネストされたサブゲーム解決。
- DeepStack:ヘッドアップノーリミットポーカー、Science 2017 [Paper]の専門家レベルの人工知能。
- マルチエージェント強化学習に対する統一されたゲーム理論的アプローチ、Neurips 2017 [Paper]。
- ポーカーCNN:畳み込みネットワークを使用してポーカーゲームで引き分けと賭けをするためのパターン学習戦略[Paper]。
- Imperfect-Information Gamesの自己プレイからの深い強化学習、ARXIV 2016 [Paper]。
- 大規模なフォームゲームでの架空の自己プレイ、ICML 2015 [Paper]。
- ヘッズアップの解決制限テキサスHold'em、IJCAI 2015 [Paper]。
- 不完全な情報を備えたゲームの最小化を後悔する、Neurips 2007 [Paper]。
Dou Dizhu
- PerfectDou:完璧な情報蒸留でDoudizhuを支配する、Neurips 2022 [Paper] [Code]。
- Douzero:Doudizhuを自己プレイディープ補強学習で習得する、ICML 2021 [Paper] [Code]。
- Deltadou:自己プレイを通じて専門家レベルのDoudizhu AI、IJCAI 2019 [Paper]。
- Du di Zhuの組み合わせQラーニング、ARXIV 2019 [Paper] [Code]。
- 決定と情報は、カードゲームの検索を設定します。
マジョン
- 補強学習のための変動オラクルガイド、ICLR 2022 [論文]
- SUPHX:Mahjongを深い補強学習で習得、Arxiv 2020 [Paper]。
- ARXIV 2019のマジョンのマルチプレイヤーゲームでマルコフ決定プロセスに抽象化して人工知能プレーヤーを構築する方法[論文]。
- モンテカルロシミュレーションと対戦相手モデルに基づいてマジョンプレーヤーを構築する、IEEE CIG 2017 [Paper]。
橋
- 橋の人工知能の向上、ICTAI 2017 [Paper]。
行く
- 人間の知識なしでGOのゲームをマスターする、Nature 2017 [Paper]。
- 深いニューラルネットワークとツリー検索、Nature 2016 [Paper]を使用してGOのゲームをマスターする。
- コンピューターGO、機械学習、2012年の時間差検索[論文]。
- コンピューターGOのモンテカルロツリー検索と迅速なアクション価値推定、人工知能、2011 [Paper]。
- Go of Go、ICGA Journal、2007 [Paper]における移動パターンの「ELO評価」を計算します。
スタークラフト
- Multi-Agent Renection Learning、Nature 2019 [Paper]を使用したStarcraft IIのグランドマスターレベル。
- Starcraftのフルレングスゲームの強化学習、AAAI 2019 [Paper]。
- 深いマルチエージェント補強学習のための安定化エクスペリエンスリプレイ、ICML 2017 [Paper]。
- SSCI 2017 [Paper]のStarCraftの複数のユニットの協力補強学習。
- Deep Learningを使用したリプレイからのStarCraftのMacRomanamapaleを学習する、CIG 2017 [Paper]。
- リアルタイム戦略ゲームスタークラフトでの小規模戦闘に強化学習を適用する:Broodwar、CIG 2012 [Paper]。
会議とワークショップ
- 計算インテリジェンスとゲームに関するIEEE会議(CIG)
- ゲームでの補強学習に関するAAAIワークショップ
- ゲーム理論と深い学習
- IJCAI 2018コンピューターゲームワークショップ
- ゲームに関するIEEE会議(COG)
競技
- 国際コンピューターゲーム協会(ICGA)
- 毎年恒例のコンピューターポーカー競争
関連リスト
- 素晴らしいスタークラフトAI
- 素晴らしい深い補強学習