Gym은 학습 알고리즘과 환경간에 통신 할 수있는 표준 API와 해당 API를 준수하는 표준 환경 세트를 제공하여 강화 학습 알고리즘을 개발하고 비교하기위한 오픈 소스 파이썬 라이브러리입니다. 릴리스 이후 체육관의 API는이 작업을 수행하는 현장 표준이되었습니다.
체육관 문서 웹 사이트는 https://www.gymlibrary.dev/에 있으며 여기에서 수정 및 변경 사항을 제안 할 수 있습니다.
Gym은 또한 여기에 가입 할 수있는 개발 목적으로 불화 서버가 있습니다 : https://discord.gg/nhg2jrn489
기본 체육관 도서관을 설치하려면 pip install gym
사용하십시오.
여기에는 모든 환경 패밀리에 대한 종속성이 포함되지 않습니다 (대량 숫자가 있으며 일부는 특정 시스템에 설치하는 데 문제가 될 수 있음). pip install gym[atari]
같은 한 가족을 위해 이러한 종속성을 설치하거나 pip install gym[all]
사용하여 모든 종속성을 설치할 수 있습니다.
Linux 및 MacOS에서 Python 3.7, 3.8, 3.9 및 3.10을 지원합니다. 우리는 Windows와 관련된 PRS를 수락하지만 공식적으로 지원하지는 않습니다.
Gym API의 API 모델은 간단한 Python env
클래스로 환경을 모델링합니다. 환경 인스턴스를 만들고 그들과 상호 작용하는 것은 매우 간단합니다. "Cartpole-V1"환경을 사용하는 예입니다.
import gym
env = gym . make ( "CartPole-v1" )
observation , info = env . reset ( seed = 42 )
for _ in range ( 1000 ):
action = env . action_space . sample ()
observation , reward , terminated , truncated , info = env . step ( action )
if terminated or truncated :
observation , info = env . reset ()
env . close ()
이것은 불완전한 목록이며, 관리자가 권장 사항을 요청할 때 가장 일반적으로 새로운 커뮤니머를 지적하는 라이브러리를 포함합니다.
체육관은 재현성 이유에 대한 엄격한 버전을 유지합니다. 모든 환경은 "_v0"과 같은 접미사로 끝납니다. 학습 결과에 영향을 줄 수있는 환경이 변경되면 잠재적 혼란을 방지하기 위해 숫자가 증가합니다.
Mujoco 환경의 최신 "_v4"및 미래 버전은 더 이상 mujoco-py
에 의존하지 않습니다. 대신 mujoco
Future Gym Mujoco 환경 버전에 필요한 의존성이 될 것입니다. mujoco-py
에 의존하는 오래된 체육관 Mujoco 환경 버전은 여전히 유지되지 않지만 인재되지 않습니다. 최신 체육관 Mujoco 환경에 대한 의존성을 설치하려면 pip install gym[mujoco]
사용하십시오. 이전 Mujoco 환경의 종속성은 여전히 pip install gym[mujoco_py]
에서 설치할 수 있습니다.
체육관이 나왔을 때의 백서는 https://arxiv.org/pdf/1606.01540을 사용할 수 있으며 다음 Bibtex 항목으로 인용 할 수 있습니다.
@misc{1606.01540,
Author = {Greg Brockman and Vicki Cheung and Ludwig Pettersson and Jonas Schneider and John Schulman and Jie Tang and Wojciech Zaremba},
Title = {OpenAI Gym},
Year = {2016},
Eprint = {arXiv:1606.01540},
}
예전에는 모든 새로운 체육관 버전에 대한 릴리스 노트가있었습니다. 대부분의 다른 라이브러리와 마찬가지로 새로운 릴리스 노트가 Github의 릴리스 페이지로 이동 중입니다. 오래된 메모는 여기에서 볼 수 있습니다.