이 책의 목표는 ML이 어떻게 실용적이면서도 포괄적인 방식으로 알고리즘 거래 전략에 가치를 추가할 수 있는지 보여주는 것입니다. 선형 회귀부터 심층 강화 학습까지 광범위한 ML 기술을 다루고, 모델 예측을 기반으로 거래 전략을 구축, 백테스트 및 평가하는 방법을 보여줍니다.
23개 장과 부록으로 구성된 4부로 구성된 이 책은 800페이지가 넘습니다 .
이 리포지토리에는 책에서 논의된 개념, 알고리즘 및 사용 사례를 실행에 옮기는 150개 이상의 노트북이 포함되어 있습니다. 그들은 다음을 보여주는 수많은 예를 제공합니다.
책을 읽는 동안 노트북을 검토하는 것이 좋습니다 . 일반적으로 실행된 상태이며 공간 제약으로 인해 포함되지 않은 추가 정보를 포함하는 경우가 많습니다.
이 저장소의 정보 외에도 책의 웹사이트에는 장 요약 및 추가 정보가 포함되어 있습니다.
독자들이 책의 내용과 코드 예제는 물론, 자신만의 전략 개발 및 구현과 업계 발전에 대해 쉽게 질문할 수 있도록 온라인 플랫폼을 호스팅하고 있습니다.
우리 커뮤니티에 가입하여 거래 전략에 ML을 활용하는 데 관심이 있는 동료 거래자들과 연결하고, 경험을 공유하고, 서로에게서 배우십시오!
무엇보다도 이 책은 광범위한 지도 학습, 비지도 학습, 강화 학습 알고리즘을 사용하여 다양한 데이터 소스에서 신호를 추출하고 다양한 자산 클래스에 대한 거래 전략을 설계하는 방법을 보여줍니다. 또한 알고리즘 조정이나 결과 해석을 용이하게 하는 관련 수학적 및 통계적 지식을 제공합니다. 또한 시장 및 기본 데이터로 작업하고, 유용한 기능을 추출하고, 거래 전략 성과를 관리하는 데 도움이 되는 재무 배경을 다룹니다.
실용적인 관점에서 제2판은 자신만의 ML 기반 거래 전략을 개발하기 위한 개념적 이해와 도구를 갖추는 것을 목표로 합니다. 이를 위해 ML을 독립 실행형 실행이 아닌 프로세스의 중요한 요소로 구성하여 데이터 소싱, 기능 엔지니어링, 모델 최적화부터 전략 설계 및 백테스트까지 거래 워크플로를 위한 엔드투엔드 ML을 도입합니다.
보다 구체적으로, ML4T 워크플로는 잘 정의된 투자 영역에 대한 아이디어 생성, 관련 데이터 수집, 유용한 기능 추출로 시작됩니다. 또한 예측 작업에 적합한 ML 모델을 설계, 조정 및 평가하는 작업도 포함됩니다. 마지막으로, 모델의 예측 신호에 따라 조치를 취하는 거래 전략을 개발하고 백테스팅 엔진을 사용하여 과거 데이터에 대한 성과를 시뮬레이션하고 평가해야 합니다. 실제 시장에서 알고리즘 전략을 실행하기로 결정하면 새로운 정보와 변화하는 환경을 통합하기 위해 이 워크플로를 반복적으로 반복하게 됩니다.
ML4t 워크플로에 대한 두 번째 버전의 강조는 전략 백테스팅에 대한 새로운 장, 100개 이상의 다양한 알파 요소를 설명하는 새로운 부록 및 많은 새로운 실제 응용 프로그램으로 해석됩니다. 또한 명확성과 가독성을 위해 대부분의 기존 콘텐츠를 다시 작성했습니다.
이제 거래 애플리케이션은 국제 주식 및 ETF를 포함하여 일일 미국 주식 가격을 넘어 더 광범위한 데이터 소스를 사용합니다. 또한 분 빈도 주식 데이터를 사용하여 일중 전략에 ML을 사용하는 방법을 보여줍니다. 또한 대체 데이터 소스의 범위를 확장하여 정서 분석 및 수익 예측을 위한 SEC 제출 자료와 토지 이용 분류를 위한 위성 이미지를 포함합니다.
두 번째 버전의 또 다른 혁신은 최근 최고의 저널에 게시된 여러 거래 애플리케이션을 복제한 것입니다.
이제 모든 애플리케이션은 pandas 1.0 및 TensorFlow 2.2와 같은 최신(작성 당시) 소프트웨어 버전을 사용합니다. 거래 전략을 설계할 때 기계 학습 모델 예측을 쉽게 포함할 수 있는 맞춤형 버전의 Zipline도 있습니다.
코드 예제는 데이터 과학 및 금융 도메인의 광범위한 Python 라이브러리를 사용합니다.
버전 충돌이 발생할 가능성이 높아지므로 모든 라이브러리를 한 번에 설치하려고 할 필요는 없습니다. 대신, 진행하면서 특정 장에 필요한 라이브러리를 설치하는 것이 좋습니다.
2022년 3월 업데이트:
zipline-reloaded
,pyfolio-reloaded
,alphalens-reloaded
및empyrical-reloaded
이제conda-forge
채널에서 사용할 수 있습니다.ml4t
채널에는 오래된 버전만 포함되어 있으며 곧 제거될 예정입니다.
2021년 4월 업데이트: Zipline 업데이트로 더 이상 Docker를 사용할 필요가 없습니다. 이제 설치 지침에서는 노트북 실행을 단순화하는 OS별 환경 파일을 참조합니다.
2021년 2월 업데이트: 코드 샘플 릴리스 2.0은 Docker 이미지에서 제공하는 conda 환경을 Python 3.8, Pandas 1.2 및 TensorFlow 1.2 등으로 업데이트합니다. 이제 Zipline 백테스팅 환경에서는 Python 3.6을 사용합니다.
conda
환경을 설정하고 원하는 경우 노트북에 사용되는 패키지를 컴퓨터에 직접 설치하기 위한 구성 파일도 포함되어 있습니다(시스템에 따라 추가 작업을 수행할 준비가 되어 있음).환경 설치, 데이터 다운로드, 코드 실행에 어려움이 있는 경우 저장소(여기)에서 GitHub 문제를 제기해 주세요. GitHub 문제 작업은 여기에 설명되어 있습니다.
업데이트 : 책에 사용된 알고시크 데이터는 여기에서 다운로드할 수 있습니다. 2장의 전처리 지침과 12장의 그래디언트 부스팅 모델을 사용한 일중 예제를 참조하세요.
업데이트 : 그림 디렉토리에는 책에 사용된 차트의 컬러 버전이 포함되어 있습니다.
이 책은 시장, 기본 및 대체 데이터 소싱을 소싱하고 작업할 때 발생하는 다양한 문제를 해결하고, 거래 맥락에서 다양한 예측 작업에 대한 ML 솔루션을 개발하고, 생성된 예측 신호에 의존하는 거래 전략을 설계 및 평가하는 네 부분으로 구성되어 있습니다. ML 모델.
각 장의 디렉토리에는 콘텐츠, 코드 예제 및 추가 리소스에 대한 추가 정보가 포함된 README가 포함되어 있습니다.
1부: 데이터에서 전략 개발까지
2부: 거래를 위한 머신러닝: 기초
3부: 거래를 위한 자연어 처리
4부: 심층 학습 및 강화 학습
첫 번째 부분에서는 기계 학습(ML)을 기반으로 거래 전략을 개발하기 위한 프레임워크를 제공합니다. 이 책에서 논의된 ML 알고리즘과 전략을 강화하는 데이터에 초점을 맞추고, ML 모델에 적합한 기능을 엔지니어링하고 평가하는 방법과 거래 전략을 실행하는 동안 포트폴리오 성과를 관리하고 측정하는 방법을 간략하게 설명합니다.
이 장에서는 투자 업계에서 경쟁 우위의 원천으로 ML이 등장하게 된 업계 동향을 살펴봅니다. 또한 알고리즘 거래 전략을 활성화하기 위해 ML이 투자 프로세스에 적합한 위치를 살펴보겠습니다.
보다 구체적으로 다음 주제를 다룹니다.
이 장에서는 시장 및 기본 데이터를 사용하는 방법을 보여주고, 해당 데이터가 반영하는 환경의 중요한 측면을 설명합니다. 예를 들어, 다양한 주문 유형과 거래 인프라에 대한 지식은 데이터 해석뿐만 아니라 백테스트 시뮬레이션을 올바르게 설계하는 데에도 중요합니다. 또한 Python을 사용하여 거래 및 재무제표 데이터에 액세스하고 조작하는 방법을 설명합니다.
실제 사례에서는 나중에 ML 기반 일중 전략에 사용할 수요-공급 역학을 포착하는 풍부한 속성 세트를 사용하여 NASDAQ 틱 데이터 및 Algoseek 분 막대 데이터의 거래 데이터로 작업하는 방법을 보여줍니다. 또한 다양한 데이터 제공자 API와 SEC에서 재무제표 정보를 얻는 방법도 다룹니다.
특히 이 장에서는 다음 내용을 다룹니다.이 장에서는 대체 데이터의 범주와 사용 사례를 간략하게 설명하고, 급증하는 소스 및 제공자를 평가하기 위한 기준을 설명하고, 현재 시장 환경을 요약합니다.
또한 책의 세 번째 부분에서는 자연어 처리(NLP) 및 감정 분석 알고리즘에 사용할 수익 보고 기록을 수집하는 등 웹사이트를 스크랩하여 대체 데이터 세트를 만드는 방법을 보여줍니다.
보다 구체적으로 이 장에서는 다음을 다룹니다.
ML에 이미 익숙하다면 특성 추출이 성공적인 예측을 위한 중요한 요소라는 것을 알고 계실 것입니다. 학계 및 업계 연구자들이 자산 시장과 가격을 주도하는 요인과 가격 변동을 설명하거나 예측하는 데 도움이 되는 기능을 수십 년 동안 조사해 온 거래 영역에서는 최소한 중요합니다.
이 장에서는 알파 요인에 대한 탐구의 출발점으로서 이 연구의 주요 내용을 간략하게 설명합니다. 또한 NumPy, pandas 및 TA-Lib 라이브러리가 어떻게 데이터 조작을 용이하게 하는지 강조하고, 데이터의 노이즈를 줄이는 데 도움이 되는 웨이블릿 및 Kalman 필터와 같은 널리 사용되는 평활화 기술을 제시하면서 알파 요소를 계산하고 테스트하는 필수 도구를 제공합니다. 읽고 나면 다음 사항을 알게 됩니다.
알파 팩터는 알고리즘 전략이 거래로 변환되어 결국 롱 포지션과 숏 포지션이 생성된다는 신호를 생성합니다. 결과 포트폴리오의 수익과 위험에 따라 전략이 투자 목표를 충족하는지 여부가 결정됩니다.
포트폴리오를 최적화하는 방법에는 여러 가지가 있습니다. 여기에는 자산 간의 계층적 관계를 학습하고 포트폴리오의 위험 프로필을 설계할 때 이를 보완재 또는 대체재로 처리하기 위한 기계 학습(ML) 적용이 포함됩니다. 이 장에서는 다음 내용을 다룹니다.
두 번째 부분에서는 기본적인 지도 및 비지도 학습 알고리즘을 다루고 이를 거래 전략에 적용하는 방법을 보여줍니다. 또한 이 책에서 개발한 데이터와 ML 기술을 활용하고 결합하여 실제 시장에서 거래를 실행하는 알고리즘 전략을 구현할 수 있는 Quantopian 플랫폼을 소개합니다.
이 장에서는 다양한 감독 및 비지도 ML 모델을 거래에 사용하는 방법을 설명하는 2부로 시작합니다. 다양한 Python 라이브러리를 사용하여 관련 애플리케이션을 시연하기 전에 각 모델의 가정과 사용 사례를 설명하겠습니다.
이러한 모델과 해당 응용 프로그램에는 몇 가지 공통점이 있습니다. 이 장에서는 다음 장에서 모델별 사용법에 집중할 수 있도록 이러한 일반적인 측면을 다룹니다. ML 모델의 예측 성능을 체계적인 워크플로로 공식화, 훈련, 조정 및 평가하는 방법을 간략하게 설명하여 무대를 설정합니다. 내용은 다음과 같습니다:
선형 모델은 회귀 및 분류 상황에서 추론과 예측을 위한 표준 도구입니다. 널리 사용되는 수많은 자산 가격 책정 모델은 선형 회귀에 의존합니다. Ridge 및 Lasso 회귀와 같은 정규화된 모델은 종종 과적합 위험을 제한하여 더 나은 예측을 제공합니다. 일반적인 회귀 애플리케이션은 자산 수익을 유도하는 위험 요소를 식별하여 위험을 관리하거나 수익을 예측합니다. 반면 분류 문제에는 방향성 가격 예측이 포함됩니다.
07장에서는 다음 주제를 다룹니다.
이 장에서는 ML 알고리즘을 기반으로 한 거래 전략의 설계, 시뮬레이션 및 평가에 대한 엔드투엔드 관점을 제시합니다. Python 라이브러리 백트레이더 및 Zipline을 사용하여 과거 시장 상황에서 ML 기반 전략을 백테스트하는 방법을 자세히 설명합니다. ML4T 워크플로는 궁극적으로 실제 시장에서 후보 전략을 배포하고 재정 자원을 위험에 빠뜨릴지 여부를 결정하는 데 도움이 되는 과거 데이터에서 증거를 수집하는 것을 목표로 합니다. 전략을 현실적으로 시뮬레이션하려면 보안 시장의 운영 방식과 거래 실행 방식을 충실하게 나타내야 합니다. 또한 몇 가지 방법론적 측면에서는 잘못된 투자 결정으로 이어질 수 있는 편향된 결과와 잘못된 발견을 피하기 위해 주의가 필요합니다.
보다 구체적으로, 이 장을 완료하면 다음을 수행할 수 있습니다.
이 장에서는 동일한 시계열의 미래 값을 예측하기 위해 시계열 기록에서 신호를 추출하는 모델에 중점을 둡니다. 시계열 모델은 거래에 내재된 시간 차원으로 인해 널리 사용됩니다. 이는 정상성과 같은 시계열 특성을 진단하고 잠재적으로 유용한 패턴을 포착하는 기능을 추출하는 도구를 제공합니다. 또한 거시 데이터 및 변동성 패턴을 예측하기 위해 일변량 및 다변량 시계열 모델을 도입합니다. 마지막으로, 공적분이 시계열 전반에 걸쳐 공통 추세를 식별하는 방법을 설명하고 이 중요한 개념을 기반으로 쌍 거래 전략을 개발하는 방법을 보여줍니다.
특히 다음 내용을 다룹니다.
베이지안 통계를 사용하면 미래 사건에 대한 불확실성을 정량화하고 새로운 정보가 도착함에 따라 원칙적인 방식으로 추정치를 개선할 수 있습니다. 이러한 역동적인 접근 방식은 금융 시장의 진화하는 특성에 잘 적응합니다. ML에 대한 베이지안 접근 방식은 통계 측정항목, 매개변수 추정 및 예측과 관련된 불확실성에 대한 새로운 통찰력을 제공합니다. 적용 범위는 더욱 세분화된 위험 관리부터 시장 환경의 변화를 통합하는 예측 모델의 동적 업데이트까지 다양합니다.
보다 구체적으로 이 장에서는 다음을 다룹니다.
이 장에서는 의사결정 트리와 랜덤 포레스트를 거래에 적용합니다. 의사결정 트리는 비선형 입출력 관계를 인코딩하는 데이터로부터 규칙을 학습합니다. 회귀 및 분류 문제에 대한 예측을 수행하고, 모델에서 학습한 규칙을 시각화 및 해석하고, 모델의 하이퍼 매개변수를 조정하여 편향-분산 트레이드오프를 최적화하고 과적합을 방지하기 위해 의사결정 트리를 훈련하는 방법을 보여줍니다.
이 장의 두 번째 부분에서는 여러 의사결정 트리를 무작위 방식으로 결합하여 오류가 낮은 단일 예측을 생성하는 앙상블 모델을 소개합니다. 랜덤 포레스트 모델에 의해 생성된 거래 신호를 기반으로 한 일본 주식에 대한 롱숏 전략으로 마무리됩니다.
간단히 말해서 이 장에서는 다음 내용을 다룹니다.
그라디언트 부스팅은 종종 랜덤 포레스트보다 더 나은 결과를 생성하는 대체 트리 기반 앙상블 알고리즘입니다. 중요한 차이점은 부스팅은 모델의 누적 오류를 기반으로 각 트리를 훈련하는 데 사용되는 데이터를 수정한다는 것입니다. 랜덤 포레스트는 데이터의 무작위 하위 집합을 사용하여 많은 트리를 독립적으로 훈련하는 반면, 부스팅은 순차적으로 진행되어 데이터에 가중치를 다시 부여합니다. 이 장에서는 최첨단 라이브러리가 어떻게 인상적인 성능을 달성하고 일중 거래 전략을 백테스트하기 위해 일일 및 고주파수 데이터에 부스팅을 적용하는지 보여줍니다.
보다 구체적으로 다음 주제를 다룰 것입니다.
차원 축소 및 클러스터링은 비지도 학습의 주요 작업입니다.
보다 구체적으로 이 장에서는 다음을 다룹니다.
텍스트 데이터는 콘텐츠가 풍부하지만 형식이 구조화되어 있지 않으므로 기계 학습 알고리즘이 잠재적인 신호를 추출할 수 있도록 더 많은 전처리가 필요합니다. 중요한 과제는 텍스트를 알고리즘에서 사용할 수 있도록 숫자 형식으로 변환하는 동시에 콘텐츠의 의미나 의미를 표현하는 것입니다.
다음 세 장에서는 기계 학습 알고리즘이 이를 해석할 수 있도록 인간이 쉽게 이해할 수 있는 언어 뉘앙스를 포착하는 몇 가지 기술을 다룹니다.
텍스트 데이터는 콘텐츠가 매우 풍부하지만 구조화되어 있지 않으므로 ML 알고리즘을 사용하여 관련 정보를 추출하려면 더 많은 전처리가 필요합니다. 핵심 과제는 의미를 잃지 않고 텍스트를 숫자 형식으로 변환하는 것입니다. 이 장에서는 텍스트 분류 및 감정 분석을 위한 입력 역할을 하는 문서 용어 매트릭스를 생성하여 문서를 토큰 수의 벡터로 표현하는 방법을 보여줍니다. 또한 Naive Bayes 알고리즘을 소개하고 그 성능을 선형 및 트리 기반 모델과 비교합니다.
특히 이 장에서는 다음 내용을 다룹니다.
이 장에서는 비지도 학습을 사용하여 잠재 주제를 모델링하고 문서에서 숨겨진 테마를 추출합니다. 이러한 주제는 대규모 재무 보고서 모음에 대한 자세한 통찰력을 생성할 수 있습니다. 주제 모델은 정교하고 해석 가능한 텍스트 기능 생성을 자동화하여 광범위한 텍스트 모음에서 거래 신호를 추출하는 데 도움을 줄 수 있습니다. 문서 검토 속도를 높이고 유사한 문서의 클러스터링을 활성화하며 예측 모델링에 유용한 주석을 생성합니다. 응용 프로그램에는 회사 공개, 수입 보고 기록 또는 계약에서 중요한 주제를 식별하고 감정 분석을 기반으로 하거나 관련 자산의 수익을 사용하여 주석을 추가하는 것이 포함됩니다.
보다 구체적으로 다음 내용을 다룹니다.
이 장에서는 신경망을 사용하여 단어나 단락과 같은 개별 의미 단위의 벡터 표현을 학습합니다. 이러한 벡터는 단어주머니 모델의 고차원 희소 벡터와 비교하여 수백 개의 실제 값 항목으로 밀도가 높습니다. 결과적으로 이러한 벡터는 연속적인 벡터 공간에 각 의미 단위를 포함하거나 위치를 지정합니다.
임베딩은 유사한 사용법이 유사한 벡터를 의미한다는 이점을 통해 토큰을 해당 컨텍스트에 연결하도록 모델을 훈련한 결과입니다. 결과적으로, 상대적인 위치를 통해 단어 간의 관계와 같은 의미론적 측면을 인코딩합니다. 이는 다음 장에서 딥러닝 모델과 함께 사용할 강력한 기능입니다.
보다 구체적으로 이 장에서는 다음 내용을 다룰 것입니다.
4부에서는 알고리즘 거래에 딥 러닝을 활용하는 방법을 설명하고 시연합니다. 구조화되지 않은 데이터의 패턴을 식별하는 딥 러닝 알고리즘의 강력한 기능은 이미지 및 텍스트와 같은 대체 데이터에 특히 적합합니다.
예를 들어 샘플 애플리케이션은 텍스트와 가격 데이터를 결합하여 SEC 제출에서 놀라운 수익을 예측하는 방법, 훈련 데이터의 양을 확장하기 위해 합성 시계열을 생성하는 방법, 심층 강화 학습을 사용하여 거래 에이전트를 훈련하는 방법을 보여줍니다. 이러한 응용 프로그램 중 일부는 최근 최고의 저널에 발표된 연구를 복제합니다.
이 장에서는 피드포워드 신경망(NN)을 소개하고 과적합 위험을 관리하면서 역전파를 사용하여 대규모 모델을 효율적으로 훈련하는 방법을 보여줍니다. 또한 TensorFlow 2.0 및 PyTorch를 사용하는 방법과 NN 아키텍처를 최적화하여 거래 신호를 생성하는 방법을 보여줍니다. 다음 장에서는 대체 데이터에 중점을 두고 다양한 투자 애플리케이션에 다양한 아키텍처를 적용하기 위해 이 기반을 구축할 것입니다. 여기에는 시계열이나 자연어와 같은 순차 데이터에 맞춰진 순환 NN과 특히 이미지 데이터에 적합한 컨벌루션 NN이 포함됩니다. 또한 GAN(Generative Adversarial Networks)을 사용하여 합성 데이터를 생성하는 방법과 같은 심층 비지도 학습도 다룹니다. 또한 환경에서 대화형으로 학습하는 에이전트를 훈련하기 위한 강화 학습에 대해서도 논의할 것입니다.
특히 이 장에서는 다음 내용을 다룰 것입니다.
CNN 아키텍처는 계속 발전하고 있습니다. 이 장에서는 성공적인 애플리케이션에 공통적인 구성 요소를 설명하고, 전이 학습이 학습 속도를 높이는 방법과 객체 감지를 위해 CNN을 사용하는 방법을 보여줍니다. CNN은 이미지나 시계열 데이터에서 거래 신호를 생성할 수 있습니다. 위성 데이터는 농업 지역, 광산 또는 운송 네트워크의 항공 이미지를 통해 상품 동향을 예측할 수 있습니다. 카메라 영상은 소비자 활동을 예측하는 데 도움이 될 수 있습니다. 위성 이미지에서 경제 활동을 분류하는 CNN을 구축하는 방법을 보여줍니다. CNN은 이미지와의 구조적 유사성을 활용하여 고품질 시계열 분류 결과를 제공할 수도 있으며, 이미지와 같은 형식의 시계열 데이터를 기반으로 전략을 설계합니다.
보다 구체적으로 이 장에서는 다음 내용을 다룹니다.
재발 성 신경망 (RNN)은 각 출력을 이전 출력 및 새로운 데이터의 함수로 계산하여 더 깊은 계산 그래프에서 매개 변수를 공유하는 메모리가있는 모델을 효과적으로 만듭니다. 저명한 아키텍처에는 장거리 종속성 학습 문제를 해결하는 긴 단기 메모리 (LSTM) 및 게이트 재발 단위 (GRU)가 포함됩니다. RNN은 하나 이상의 입력 시퀀스를 하나 이상의 출력 시퀀스에 매핑하도록 설계되었으며 특히 자연어에 특히 적합합니다. 또한 시장 또는 기본 데이터를 예측하기 위해 일 변량 및 다변량 시계열에 적용될 수 있습니다. 이 장에서는 RNN이 문서로 표현 된 감정을 분류하기 위해 16 장에서 다루는 단어 임베드를 사용하여 대체 텍스트 데이터를 모델링 할 수있는 방법에 대해 다룹니다.
보다 구체적 으로이 장은 다음을 다룹니다.
이 장에서는 거래를 위해 감독되지 않은 딥 러닝을 활용하는 방법을 보여줍니다. 또한 Autoencoders, 즉 숨겨진 계층의 매개 변수로 인코딩 된 새로운 표현을 학습하면서 입력을 재현하도록 훈련 된 신경 네트워크에 대해 논의합니다. Autoencoder는 오랫동안 비선형 차원 감소에 사용되어 왔으며 지난 3 장에서 다룬 NN 아키텍처를 활용했습니다. 우리는 Autoencoders가 거래 전략을 뒷받침 할 수있는 방법을 보여주는 최근 AQR 용지를 복제합니다. 우리는 autoencoder에 의존하여 위험 요소를 추출하고 다양한 주식 속성에 조절 된 지분 수익을 예측하는 심층 신경망을 사용합니다.
보다 구체적으로,이 장에서는 다음에 대해 배울 것입니다.
이 장에서는 GAN (Generative Adversarial Networks)을 소개합니다. GANS는 발전기가 경쟁 환경에서 발전기와 판별 자 네트워크를 훈련시켜 발전기가 판별자가 주어진 클래스의 교육 데이터와 구별 할 수없는 샘플을 생성하는 법을 배웁니다. 목표는이 클래스를 대표하는 합성 샘플을 생성 할 수있는 생성 모델을 생성하는 것입니다. 이미지 데이터에서 가장 인기가 있지만 Gans는 의료 영역에서 합성 시계열 데이터를 생성하는 데 사용되었습니다. 재무 데이터에 대한 후속 실험은 GANS가 ML 교육 또는 전략 백 테스트에 유용한 대체 가격 궤적을 생성 할 수 있는지 여부를 탐구했습니다. 우리는 2019 년 Neurips Time-Series Gan Paper를 복제하여 접근 방식을 설명하고 결과를 보여줍니다.
보다 구체적으로,이 장에서는 다음에 대해 배울 것입니다.
강화 학습 (RL)은 확률 론적 환경과 상호 작용하는 에이전트의 목표 지향 학습을 모델링합니다. RL은 보상 신호에서 국가의 가치와 행동을 배우면서 장기 목표에 관한 대리인의 결정을 최적화합니다. 궁극적 인 목표는 행동 규칙을 인코딩하고 상태를 행동에지도하는 정책을 도출하는 것입니다. 이 장에서는 RL 문제를 공식화하고 해결하는 방법을 보여줍니다. 모델 기반 및 모델이없는 방법을 다루고, OpenAi 체육관 환경을 소개하며, 딥 러닝을 결합하여 복잡한 환경을 탐색하는 에이전트를 훈련시킵니다. 마지막으로, 객관적인 기능을 최적화하려고 노력하면서 금융 시장과 상호 작용하는 에이전트를 모델링하여 RL을 알고리즘 거래에 적응시키는 방법을 보여줍니다.
보다 구체적으로,이 장은 다음과 같습니다.
이 결론 장에서, 우리는 책 전체에서 배운 필수 도구, 응용 프로그램 및 교훈을 간략하게 요약하여 큰 세부 사항 후에 큰 그림을 잃지 않도록 할 것입니다. 그런 다음 우리는 우리가 다루지 않은 영역을 식별하지만 우리가 소개 한 많은 기계 학습 기술을 확장하고 매일 사용하면 생산성이 높아짐에 따라 집중할 가치가 있습니다.
요약하면,이 장에서는 우리는 할 것입니다
이 책 전체에서, 우리는 적절한 전처리 및 거부를 포함한 스마트 기능 디자인이 일반적으로 효과적인 전략으로 이어지는 방법을 강조했습니다. 이 부록은 기능 엔지니어링에서 배운 몇 가지 교훈을 종합 하고이 중요한 주제에 대한 추가 정보를 제공합니다.
이를 위해, 우리는 TA-LIB (4 장 참조)와 Worldquant의 101 포뮬러 알파 용지 (Kakushadze 2016)에 의해 구현 된 광범위한 지표에 중점을두고 있으며, 이는 평균 보유 기간이있는 생산에 사용되는 실제 정량적 거래 요소를 나타냅니다. 0.6-6.4 일.
이 장에서는 다음과 같습니다.