applied reinforcement learning 다운로드 - applied reinforcement learning 소스코드 다운로드

applied reinforcement learning

AI 소스 코드

1.0.0

다운로드

응용 강화 학습

저는 몇 년 동안 강화 학습과 의사 결정을 연구해 왔습니다. 제가 직면한 가장 어려운 것 중 하나는 반드시 개념과 관련이 있는 것이 아니라 이러한 개념이 어떻게 설명되었는지였습니다. 나에게 학습은 가르치는 개념과 연결될 수 있을 때 발생합니다. 이를 위해서는 직관적인 설명이 필요한 경우가 많으며, 실제적인 접근 방식이 그러한 종류의 이해를 구축하는 데 도움이 될 수 있습니다.

이 저장소에 대한 나의 목표는 커뮤니티와 함께 초보자가 강화 학습을 직관적인 방식으로 이해하는 데 도움이 되는 리소스를 만드는 것입니다. 내가 설명할 수 있는 것처럼 단순하고 단순하게 이러한 개념 중 일부를 가르치려는 나의 초기 시도를 여기에서 볼 수 있습니다.

오타, 텍스트의 전체 추가, 노트북의 수정 또는 완전히 새로운 노트북 등 공동 작업을 원할 경우 상황을 개선할 수 있도록 자유롭게 문제 및/또는 끌어오기 요청을 보내주세요. 귀하의 풀 요청이 저장소의 목표와 일치하는 한 병합될 가능성이 매우 높습니다. 저는 최고의 교사나 강화학습 연구자는 아니지만 강화학습과 의사결정을 누구나 쉽게 이해할 수 있도록 만들 수 있다고 믿습니다. 글쎄, 적어도 더 쉽습니다.

노트북 설치
- 자식 설치
- 도커 설치
- 노트북 실행
  - TL, DR 버전
  - 좀 더 자세한 버전:
    - 브라우저에서 노트북을 엽니다.
    - 다음 주소에서 TensorBoard를 엽니다.
- 도커 팁
1부: 소개
- 1. 의사결정 입문
  - 1.1 의사결정
  - 1.2 추가 자료
2부: 강화 학습 및 의사결정
- 2. 순차적 결정
  - 2.1 의사결정 문제 모델링
  - 2.2 솔루션 표현
  - 2.3 단순 순차 문제
  - 2.4 약간 더 복잡한 문제
  - 2.5 솔루션 평가
  - 2.6 솔루션 개선
  - 2.7 최적의 솔루션 찾기
  - 2.8 정책 반복 개선
  - 2.9 연습
  - 2.10 추가 자료
- 3. 결정론적 및 확률론적 행동
  - 3.1 우리는 세상을 완벽하게 통제할 수 없다
  - 3.2 확률론 다루기
  - 3.3 연습
  - 3.4 추가 자료
- 4. 알려진 환경과 알려지지 않은 환경
  - 4.1 환경 모델이 없으면 어떻게 되나요?
  - 4.2 탐구의 필요성
  - 4.3 무엇을 배울 것인가?
  - 4.4 배운 내용으로 무엇을 할까요?
  - 4.5 행동에 작은 무작위성을 추가하기
  - 4.6 연습
  - 4.7 추가 자료
3부: 어려운 문제에 대한 의사결정
- 5. 이산 및 연속 상태
  - 5.1 메모리에 담기에는 너무 큽니다.
  - 5.2 상태공간의 이산화
  - 5.3 함수 근사의 사용
  - 5.4 연습
  - 5.5 추가 자료
- 6. 개별적이고 지속적인 행동
  - 6.1 연속 행동 공간
  - 6.2 행동 공간의 이산화
  - 6.3 함수 근사의 사용
  - 6.4 정책 검색
  - 6.5 연습
  - 6.6 추가 자료
- 7. 관찰 가능한 상태와 부분적으로 관찰 가능한 상태
  - 7.1 우리가 보는 것이 실제인가?
  - 7.2 상태 추정
  - 7.3 부분적으로 관찰 가능한 환경에서의 제어
  - 7.4 추가 자료
4부: 다중 의사결정 주체
- 8. 단일 및 다중 에이전트
  - 8.1 동일한 목적을 가진 에이전트
  - 8.2 다른 에이전트가 플레이 중이면 어떻게 되나요?
  - 8.3 추가 자료
- 9. 협력적 대리인과 적대적 대리인
  - 9.1 목표가 상충되는 에이전트
  - 9.2 목표가 상충되는 에이전트 팀
  - 9.3 추가 자료
5부: 인간의 의사결정과 그 너머
- 10. 의사결정과 인간
  - 10.1 논의된 방법과 인간 사이의 유사점
  - 10.2 논의된 방법과 인간의 차이점
  - 10.3 추가 자료
- 11. 결론
- 12. 추천도서
- 12. 추천 강좌

노트북 설치

이 저장소에는 강의를 따라갈 수 있는 Jupyter 노트북이 포함되어 있습니다. 그러나 설치해야 할 여러 패키지와 애플리케이션이 있습니다. 여러분의 작업을 더 쉽게 하기 위해 여러분이 따라할 수 있는 재현 가능한 환경을 설정하는 데 조금 더 오랜 시간이 걸렸습니다.

자식 설치

(https://git-scm.com/book/en/v2/Getting-Started-Installing-Git)의 지침을 따르세요.

도커 설치

(https://docs.docker.com/engine/getstarted/step_one/#step-2-install-docker)의 지침을 따르세요.

노트북 실행

TL, DR 버전

git clone [email protected]:mimoralea/applied-reinforcement-learning.git && cd applied-reinforcement-learning
docker pull mimoralea/openai-gym:v1
docker run -it --rm -p 8888:8888 -p 6006:6006 -v $PWD/notebooks/:/mnt/notebooks/ mimoralea/openai-gym:v1

좀 더 자세한 버전:

저장소를 원하는 위치에 복제합니다(예: git clone [email protected]:mimoralea/applied-reinforcement-learning.git ~/Projects/applied-reinforcement-learning )
저장소 디렉터리로 들어갑니다(예: cd ~/Projects/applied-reinforcement-learning ).
직접 빌드하거나 이미 빌드된 Docker 컨테이너를 가져옵니다.
3.1. 이를 빌드하려면 다음 명령을 사용하십시오: docker build -t mimoralea/openai-gym:v1 .
3.2. Docker 허브에서 가져오려면 다음을 사용하세요. docker pull mimoralea/openai-gym:v1
컨테이너를 실행합니다. docker run -it --rm -p 8888:8888 -p 6006:6006 -v $PWD/notebooks/:/mnt/notebooks/ mimoralea/openai-gym:v1

브라우저에서 노트북을 엽니다.

http://localhost:8888 (또는 토큰이 포함된 실행 명령에서 나온 링크를 따라가세요)

다음 주소에서 TensorBoard를 엽니다.

http://localhost:6006

이는 함수 근사를 사용하여 수업에서 신경망을 시각화하는 데 도움이 됩니다.

도커 팁

실행 중인 컨테이너의 bash 세션에 액세스하려면 다음을 수행하세요.
** docker ps #은 현재 실행 중인 컨테이너를 표시합니다. 액세스하려는 컨테이너의 ID를 기록해 두십시오.
** docker exec --user root -it c3fbc82f1b49 /bin/bash # 이 경우 c3fbc82f1b49가 ID입니다.
Jupyter 또는 TensorBoard를 실행하지 않고 bash에서 바로 새 컨테이너 인스턴스를 시작하려는 경우
** docker run -it --rm mimoralea/openai-gym:v1 /bin/bash # 그러면 노트북 사용자로 bash 세션이 실행됩니다.
** docker run --user root -e GRANT_SUDO=yes -it --rm mimoralea/openai-gym:v1 /bin/bash # 이렇게 하면 bash 세션이 루트로 실행됩니다.

확장하다

추가 정보