ジムは、学習アルゴリズムと環境間で通信する標準APIを提供することにより、強化学習アルゴリズムを開発および比較するためのオープンソースのPythonライブラリであり、そのAPIに準拠した環境セットのセットです。リリース以来、ジムのAPIはこれを行うためのフィールド標準になりました。
ジムのドキュメントのウェブサイトはhttps://www.gymlibrary.dev/にあり、ここで修正と変更を提案できます。
ジムには、開発目的のためのDiscord Serverもあります。ここに参加できます:https://discord.gg/nhg2jrn489
ベースジムライブラリをインストールするには、 pip install gym
を使用します。
これには、環境のすべてのファミリの依存関係は含まれません(膨大な数があり、一部は特定のシステムにインストールするのに問題がある可能性があります)。これらの依存関係はpip install gym[atari]
などの1つのファミリにインストールするか、 pip install gym[all]
を使用して、すべての依存関係をインストールできます。
LinuxおよびMacOSでPython 3.7、3.8、3.9、3.10をサポートしています。 Windowsに関連するPRSを受け入れますが、公式にはサポートしていません。
ジムAPIのAPIモデル環境は、シンプルなPython env
クラスとして環境をモデル化します。環境インスタンスの作成とそれらとの対話は非常に単純です。「Cartpole-V1」環境を使用した例を次に示します。
import gym
env = gym . make ( "CartPole-v1" )
observation , info = env . reset ( seed = 42 )
for _ in range ( 1000 ):
action = env . action_space . sample ()
observation , reward , terminated , truncated , info = env . step ( action )
if terminated or truncated :
observation , info = env . reset ()
env . close ()
これは不完全なリストであり、メンテナーが最も一般的にニューコマーが推奨事項を求められたときに最も一般的に指しているライブラリを含むことに注意してください。
ジムは、再現性の理由で厳格なバージョンを保持しています。すべての環境は、「_V0」のような接尾辞で終わります。学習結果に影響を与える可能性のある環境に変更が加えられると、潜在的な混乱を防ぐために数が増加します。
Mujoco環境の最新の「_V4」と将来のバージョンは、 mujoco-py
に依存しなくなります。代わりに、 mujoco
将来のジムムホコ環境バージョンに必要な依存関係になります。 mujoco-py
に依存する古いジムMujoco環境バージョンはまだ保持されますが、維持されていません。最新のジムMujoco環境の依存関係をインストールするにはpip install gym[mujoco]
を使用しています。古いMujoco環境の依存関係はpip install gym[mujoco_py]
によって引き続きインストールできます。
ジムが出てきたときのホワイトペーパーはhttps://arxiv.org/pdf/1606.01540で利用でき、次のBibtexエントリで引用できます。
@misc{1606.01540,
Author = {Greg Brockman and Vicki Cheung and Ludwig Pettersson and Jonas Schneider and John Schulman and Jie Tang and Wojciech Zaremba},
Title = {OpenAI Gym},
Year = {2016},
Eprint = {arXiv:1606.01540},
}
ここには、すべての新しいジムバージョンのリリースノートがありました。他のほとんどのライブラリがそうであるように、新しいリリースノートはGithubのリリースページに移動されています。古いメモはここで見ることができます。