machine learning for tradingダウンロード - machine learning for tradingソースコードのダウンロード

machine learning for trading

AI ソースコード

2.0

ダウンロード

トレーディングのための ML -^第2 版

この本の目的は、ML が実践的かつ包括的な方法でアルゴリズム取引戦略にどのように価値を付加できるかを示すことです。線形回帰から深層強化学習まで幅広い ML 手法をカバーし、モデル予測に基づく取引戦略を構築、バックテスト、評価する方法を示します。

23 章と付録からなる4 部構成で、 800 ページ以上にわたって説明されています。

データソーシング、財務特徴エンジニアリング、ポートフォリオ管理の重要な側面、
教師ありおよび教師なし ML アルゴリズムに基づくロングショート戦略の設計と評価、
SEC への提出書類、決算報告書、金融ニュースなどの金融テキストデータから取引可能なシグナルを抽出する方法
市場データや代替データを使用した CNN や RNN などの深層学習モデルの使用、敵対的生成ネットワークで合成データを生成する方法、深層強化学習を使用した取引エージェントのトレーニング

このリポジトリには、この本で説明されている概念、アルゴリズム、使用例を実践する150 を超えるノートブックが含まれています。彼らは、次のことを示す多数の例を提供しています。

市場、基本的および代替のテキストおよび画像データを操作し、そこからシグナルを抽出する方法、
さまざまな資産クラスや投資期間の収益を予測するモデルをトレーニングおよび調整する方法 (最近発表された研究を再現する方法を含む)
取引戦略を設計、バックテスト、評価する方法。

本を読みながらノートを確認することを強くお勧めします。これらは通常、実行状態にあり、スペースの制約により含まれていない追加情報が含まれることがよくあります。

このリポジトリの情報に加えて、この本の Web サイトには章の概要と追加情報が含まれています。

ML4T コミュニティに参加してください!

読者が本の内容やコード例、独自の戦略の開発と実装、業界の発展について簡単に質問できるように、オンラインプラットフォームをホストしています。

コミュニティに参加して、取引戦略に ML を活用することに興味のあるトレーダー仲間とつながり、経験を共有し、お互いに学びましょう。

^{第 2}版の新機能は何ですか?

何よりもまず、この本では、さまざまなデータソースからシグナルを抽出し、さまざまな教師あり、教師なし、強化学習アルゴリズムを使用して、さまざまな資産クラスの取引戦略を設計する方法を説明します。また、アルゴリズムの調整や結果の解釈を容易にするために、関連する数学的および統計的知識も提供します。さらに、市場データやファンダメンタルデータの操作、有益な特徴の抽出、取引戦略のパフォーマンスの管理に役立つ財務背景もカバーしています。

実践的な観点から、第 2 版は、独自の ML ベースの取引戦略を開発するための概念的な理解とツールを身につけることを目的としています。この目的を達成するために、ML をスタンドアロンの演習ではなくプロセスの重要な要素としてフレーム化し、データソーシング、特徴量エンジニアリング、モデルの最適化から戦略設計とバックテストに至る取引ワークフローにエンドツーエンドの ML を導入します。

具体的には、ML4T ワークフローは、明確に定義された投資ユニバースのアイデアを生成し、関連データを収集し、有益な特徴を抽出することから始まります。また、予測タスクに適した ML モデルの設計、調整、評価も含まれます。最後に、モデルの予測シグナルに基づいて動作する取引戦略を開発し、バックテストエンジンを使用して履歴データに基づいてパフォーマンスをシミュレートおよび評価する必要があります。実際の市場でアルゴリズム戦略を実行すると決めたら、新しい情報と変化する環境を組み込むためにこのワークフローを繰り返し繰り返すことになります。

第 2 版では ML4t ワークフローに重点が置かれており、戦略バックテストに関する新しい章、100 を超える異なるアルファ要素を説明する新しい付録、および多くの新しい実用的なアプリケーションが追加されています。また、わかりやすく、読みやすくするために、既存のコンテンツのほとんどを書き直しました。

取引アプリケーションは現在、毎日の米国株式価格を超えて、国際株式や ETF を含む、より広範囲のデータソースを使用しています。また、分単位の株式データを使用した日中戦略に ML を使用する方法も示します。さらに、代替データソースの対象範囲を拡張し、センチメント分析や利益予測のための SEC 提出書類や、土地利用を分類するための衛星画像を含めます。

第 2 版のもう 1 つの革新は、最近トップジャーナルに掲載されたいくつかの取引アプリケーションを複製したことです。

第 18 章では、Sezer と Ozbahoglu (2018) に基づいて、リターン予測のために画像形式に変換された時系列に畳み込みニューラルネットワークを適用する方法を示します。
第 20 章では、Shihao Gu、Bryan T. Kelly、および Dacheng Xiu (2019) によるオートエンコーダー資産価格モデルに基づくオートエンコーダーを使用して、資産価格設定の株式特性を条件としたリスク要因を抽出する方法を示します。
第 21 章では、Jinsung Yuon、Daniel Jarrett、Mihaela van der Schaar (2019) による時系列敵対的生成ネットワークに基づいて、敵対的生成ネットワークを使用して合成トレーニングデータを作成する方法を示します。

現在、すべてのアプリケーションは、pandas 1.0 や TensorFlow 2.2 など、利用可能な最新 (執筆時点) のソフトウェアバージョンを使用しています。取引戦略を設計するときに機械学習モデルの予測を簡単に含めることができる、Zipline のカスタマイズされたバージョンもあります。

インストール、データソース、バグレポート

コード例は、データサイエンスおよび金融ドメインの幅広い Python ライブラリに依存しています。

バージョンの競合が発生する可能性が高まるため、すべてのライブラリを一度にインストールする必要はありません。代わりに、特定の章に必要なライブラリを途中でインストールすることをお勧めします。

2022 年 3 月の更新: zipline-reloaded 、 pyfolio-reloaded 、 alphalens-reloaded 、およびempyrical-reloadedがconda-forgeチャネルで利用できるようになりました。チャネルml4tには古いバージョンのみが含まれており、間もなく削除されます。

2021 年 4 月の更新: Zipline の更新により、Docker を使用する必要がなくなりました。インストール手順では、ノートブックの実行を簡素化する OS 固有の環境ファイルについて言及するようになりました。

2021 年 2 月の更新: コードサンプルリリース 2.0 は、Docker イメージによって提供される conda 環境を Python 3.8、Pandas 1.2、TensorFlow 1.2 などに更新します。 Zipline バックテスト環境では Python 3.6 が使用されるようになりました。

インストールディレクトリには、ノートブックを実行するための Docker イメージのセットアップと使用に関する詳細な手順が含まれています。また、さまざまなconda環境をセットアップし、必要に応じてノートブックで使用されるパッケージをマシンに直接インストールするための構成ファイルも含まれています (システムによっては、さらに努力する準備ができています)。
本書で使用されている多くのデータソースをダウンロードして前処理するには、データディレクトリ内のさまざまなノートブックとともに README ファイルの手順を参照してください。

環境のインストール、データのダウンロード、コードの実行で問題が発生した場合は、リポジトリ (ここ) でGitHub の問題を提起してください。 GitHub の問題の処理については、ここで説明されています。

更新: 本書で使用されているalgoseekデータはここからダウンロードできます。前処理の手順については第 2 章を、勾配ブースティングモデルを使用した日中の例については第 12 章を参照してください。

更新: Figure ディレクトリには、この本で使用されている図表のカラーバージョンが含まれています。

概要と章の概要

この本は 4 つのパートで構成されており、市場の調達と連携、基本的および代替データの調達、取引コンテキストにおけるさまざまな予測タスクに対する ML ソリューションの開発、および生成される予測シグナルに依存する取引戦略の設計と評価の際に生じるさまざまな課題に対処します。 ML モデル。

各章のディレクトリには、内容、コード例、追加リソースに関する追加情報を含む README が含まれています。

パート 1: データから戦略開発まで

01 トレーディングのための機械学習: アイデアから実行まで
02 市場および基礎データ: ソースとテクニック
03 財務用の代替データ: カテゴリとユースケース
04 金融特徴エンジニアリング: アルファファクターの調査方法
05 ポートフォリオの最適化とパフォーマンス評価

パート 2: 取引のための機械学習: 基礎

06 機械学習プロセス
07 線形モデル: リスク要因からリターン予測まで
08 ML4T ワークフロー: モデルから戦略バックテストまで
09 ボラティリティ予測と統計的裁定取引のための時系列モデル
10 ベイジアン ML: 動的シャープレシオとペア取引
11 ランダムフォレスト: 日本株のロングショート戦略
12 取引戦略を強化する
13 教師なし学習によるデータ主導のリスク要因と資産配分

パート 3: 取引のための自然言語処理

14 取引用テキストデータ: センチメント分析
15 トピックモデリング: 金融ニュースの要約
決算報告および SEC 提出用の 16 個の単語埋め込み

パート 4: 深層学習と強化学習

17 取引のためのディープラーニング
18 金融時系列と衛星画像の CNN
19 多変量時系列とセンチメント分析のための RNN
条件付きリスク要因と資産価格設定のための 20 個のオートエンコーダー
21 合成時系列データ用の敵対的生成ネット
22 深層強化学習: 取引エージェントの構築
23 結論と次のステップ
24 付録 - アルファ因子ライブラリ

パート 1: データから戦略開発まで

最初の部分では、機械学習 (ML) によって駆動される取引戦略を開発するためのフレームワークを提供します。本書で説明する ML アルゴリズムと戦略を強化するデータに焦点を当て、ML モデルに適した機能を設計および評価する方法、取引戦略を実行しながらポートフォリオのパフォーマンスを管理および測定する方法について概説します。

01 トレーディングのための機械学習: アイデアから実行まで

この章では、投資業界における競争上の優位性の源として ML の出現につながった業界のトレンドについて説明します。また、アルゴリズム取引戦略を可能にするために、ML が投資プロセスのどこに適合するかについても見ていきます。

より具体的には、次のトピックについて説明します。

投資業界における ML の台頭の背後にある主な傾向
ML を活用した取引戦略の設計と実行
取引における ML の一般的な使用例

02 市場および基礎データ: ソースとテクニック

この章では、市場データとファンダメンタルデータの操作方法を示し、それらが反映する環境の重要な側面について説明します。たとえば、さまざまな注文タイプと取引インフラストラクチャに精通していることは、データの解釈だけでなく、バックテストシミュレーションを正しく設計するためにも重要です。また、Python を使用して取引データや財務諸表データにアクセスし、操作する方法も説明します。

実用的な例では、後で ML ベースの日中戦略に使用する需要と供給のダイナミクスをキャプチャする豊富な属性セットを備えた、NASDAQ ティックデータと Algoseek 分足データからの取引データを操作する方法を示します。また、さまざまなデータプロバイダー API や SEC から財務諸表情報を入手する方法についても説明します。

この章では特に次の内容について説明します。

市場データが取引環境の構造をどのように反映するか
日中取引と相場データを分単位で操作する
NASDAQ ITCHを使用したティックデータからの指値注文ブックの再構築
さまざまな種類のバーを使用してティックデータを要約する
eXtensible Business Reporting Language (XBRL) でエンコードされた電子申告の操作
市場データとファンダメンタルズデータを解析して組み合わせてPERシリーズを作成する
Python を使用してさまざまな市場および基本的なデータソースにアクセスする方法

03 財務用の代替データ: カテゴリとユースケース

この章では、代替データのカテゴリーとユースケースの概要を説明し、爆発的に増加するソースとプロバイダーを評価する基準を説明し、現在の市場状況を要約します。

また、本の第 3 部では、自然言語処理 (NLP) やセンチメント分析アルゴリズムで使用する決算報告の記録を収集するなど、Web サイトをスクレイピングして代替データセットを作成する方法も説明します。

より具体的には、この章では次の内容について説明します。

代替データ革命中に出現した新しいシグナル源はどれですか
個人、企業、センサーが多様な代替データを生成する方法
代替データの重要なカテゴリとプロバイダー
急増する代替データの供給を取引にどのように使用できるかを評価する
インターネットをスクレイピングするなどして、Python で代替データを操作する

04 金融特徴エンジニアリング: アルファファクターの調査方法

すでに ML に精通している場合は、特徴量エンジニアリングが予測を成功させるための重要な要素であることをご存知でしょう。それは少なくともトレーディング分野では重要であり、学術研究者や業界研究者は何十年にもわたって、何が資産市場と価格を動かすのか、どの特徴が価格変動の説明や予測に役立つのかを調査してきました。

この章では、アルファ要素を独自に探求する出発点として、この研究の重要なポイントを概説します。また、アルファ係数を計算およびテストするための重要なツールも紹介し、NumPy、pandas、TA-Lib ライブラリがどのようにデータの操作を容易にし、データのノイズを低減するのに役立つウェーブレットやカルマンフィルターなどの一般的な平滑化技術をどのように提示するかを強調します。これを読むと、次のことがわかります。

要因のどのカテゴリが存在するか、それらが機能する理由、およびそれらを測定する方法
NumPy、pandas、TA-Lib を使用してアルファ係数を作成する
ウェーブレットとカルマンフィルターを使用してデータのノイズを除去する方法、
Zipline を使用して個別および複数のアルファ係数をテストする
Alphalens を使用して予測パフォーマンスを評価する方法。

05 ポートフォリオの最適化とパフォーマンス評価

アルファファクターは、アルゴリズム戦略が取引に変換されるシグナルを生成し、その結果、ロングポジションとショートポジションが生成されます。結果として得られるポートフォリオのリターンとリスクによって、戦略が投資目的を満たしているかどうかが決まります。

ポートフォリオを最適化するには、いくつかのアプローチがあります。これらには、資産間の階層関係を学習し、ポートフォリオのリスクプロファイルを設計する際にそれらを補完または代替として扱うための機械学習 (ML) のアプリケーションが含まれます。この章では以下について説明します。

ポートフォリオのリスクとリターンを測定する方法
平均分散の最適化と代替手段を使用したポートフォリオの重みの管理
機械学習を使用してポートフォリオのコンテキストで資産配分を最適化する
Zipline を使用して取引をシミュレーションし、アルファ要素に基づいてポートフォリオを作成する
pyfolio を使用してポートフォリオのパフォーマンスを評価する方法

パート 2: 取引のための機械学習: 基礎

2 番目の部分では、基本的な教師あり学習アルゴリズムと教師なし学習アルゴリズムを取り上げ、それらの取引戦略への応用を説明します。また、本書で開発されたデータと ML テクニックを活用および組み合わせて、ライブマーケットで取引を実行するアルゴリズム戦略を実装できる Quantopian プラットフォームも紹介します。

06 機械学習プロセス

この章はパート 2 の始まりで、さまざまな教師ありおよび教師なし ML モデルを取引に使用する方法を説明します。さまざまな Python ライブラリを使用して関連するアプリケーションをデモンストレーションする前に、各モデルの前提条件とユースケースについて説明します。

これらのモデルとそのアプリケーションの多くには共通する側面がいくつかあります。この章では、次の章でモデル固有の使用法に焦点を当てることができるように、これらの一般的な側面について説明します。体系的なワークフローとして ML モデルの予測パフォーマンスを定式化、トレーニング、調整、評価する方法の概要を説明することで、準備を整えます。内容には次のものが含まれます。

データからの教師あり学習と教師なし学習の仕組み
回帰および分類タスクの教師あり学習モデルのトレーニングと評価
バイアスと分散のトレードオフが予測パフォーマンスに与える影響
過学習による予測エラーを診断して対処する方法
相互検証を使用して時系列データに焦点を当ててハイパーパラメータを最適化する
サンプル外でテストする際に財務データにさらなる注意が必要な理由

07 線形モデル: リスク要因からリターン予測まで

線形モデルは、回帰および分類コンテキストでの推論と予測のための標準ツールです。広く使用されている多くの資産価格モデルは線形回帰に依存しています。 Ridge 回帰や Lasso 回帰などの正規化モデルは、過学習のリスクを制限することで、より適切な予測をもたらすことがよくあります。一般的な回帰アプリケーションは、資産の収益を促進するリスク要因を特定して、リスクの管理や収益の予測を行います。一方、分類問題には方向性のある価格予測が含まれます。

第 07 章では次のトピックについて説明します。

線形回帰の仕組みとその仮定
線形回帰モデルのトレーニングと診断
線形回帰を使用して株式収益を予測する
正則化を使用して予測パフォーマンスを向上させる
ロジスティック回帰の仕組み
回帰を分類問題に変換する

08 ML4T ワークフロー: モデルから戦略バックテストまで

この章では、ML アルゴリズムによる取引戦略の設計、シミュレーション、評価に関するエンドツーエンドの視点を示します。 Python ライブラリのバックトレーダーと Zipline を使用して、過去の市場コンテキストで ML 主導の戦略をバックテストする方法を詳しく説明します。 ML4T ワークフローの最終的な目的は、候補戦略を実際の市場に展開して資金をリスクにさらすかどうかを決定するのに役立つ履歴データから証拠を収集することです。戦略の現実的なシミュレーションでは、証券市場がどのように運営され、どのように取引が実行されるかを忠実に表現する必要があります。また、不適切な投資決定につながる偏った結果や誤った発見を避けるために、いくつかの方法論的な側面に注意が必要です。

具体的には、この章を読み進めると、次のことができるようになります。

エンドツーエンド戦略のバックテストを計画および実装する
バックテストを実装する際の重大な落とし穴を理解し、回避する
ベクトル化されたバックテストエンジンとイベント駆動型のバックテストエンジンの長所と短所について説明します。
イベント駆動型バックテスターの主要コンポーネントを特定して評価する
個別に、またはバックテストの一部としてトレーニングされた ML モデルを使用して、分単位および日単位の頻度でデータソースを使用して ML4T ワークフローを設計および実行します。
ジップラインとバックトレーダーを使用して独自の戦略を設計および評価する

09 ボラティリティ予測と統計的裁定取引のための時系列モデル

この章では、時系列の履歴からシグナルを抽出して同じ時系列の将来の値を予測するモデルに焦点を当てます。時系列モデルは、取引に固有の時間次元のため広く使用されています。定常性などの時系列特性を診断し、潜在的に有用なパターンを捕捉する特徴を抽出するツールを提供します。また、マクロデータとボラティリティパターンを予測するための単変量および多変量時系列モデルも導入されています。最後に、共積分が時系列全体にわたる共通の傾向を特定する方法を説明し、この重要な概念に基づいてペア取引戦略を開発する方法を示します。

特に、以下の内容がカバーされます。

時系列分析を使用してモデリングプロセスを準備し、通知する方法
単変量自己回帰モデルと移動平均モデルの推定と診断
自己回帰条件付き不均一分散 (ARCH) モデルを構築してボラティリティを予測する
多変量ベクトル自己回帰モデルを構築する方法
共積分を使用してペア取引戦略を開発する

10 ベイジアン ML: 動的シャープレシオとペア取引

ベイズ統計を使用すると、将来の出来事に関する不確実性を定量化し、新しい情報が到着したときに原則に基づいた方法で推定値を精緻化することができます。このダイナミックなアプローチは、金融市場の進化する性質にうまく適応します。 ML へのベイジアンアプローチにより、統計指標、パラメーター推定、予測に関する不確実性に対する新たな洞察が可能になります。アプリケーションは、より詳細なリスク管理から、市場環境の変化を組み込んだ予測モデルの動的な更新まで多岐にわたります。

より具体的には、この章では次の内容について説明します。

ベイズ統計が機械学習にどのように適用されるか
PyMC3 による確率的プログラミング
PyMC3 を使用した機械学習モデルの定義とトレーニング
最先端のサンプリング手法を実行して近似推論を行う方法
動的なシャープレシオ、動的なペア取引のヘッジ比率を計算し、確率的ボラティリティを推定するためのベイジアン ML アプリケーション

11 ランダムフォレスト: 日本株のロングショート戦略

この章では、デシジョンツリーとランダムフォレストを取引に適用します。デシジョンツリーは、非線形の入出力関係をエンコードするデータからルールを学習します。デシジョンツリーをトレーニングして回帰問題と分類問題を予測し、モデルによって学習されたルールを視覚化して解釈し、モデルのハイパーパラメーターを調整してバイアスと分散のトレードオフを最適化し、過学習を防ぐ方法を示します。

この章の第 2 部では、複数のデシジョンツリーをランダム化された方法で組み合わせて、より誤差の少ない単一の予測を生成するアンサンブルモデルを紹介します。最後に、ランダムフォレストモデルによって生成された取引シグナルに基づいた日本株のロングショート戦略を示します。

つまり、この章の内容は次のとおりです。

回帰と分類にデシジョンツリーを使用する
デシジョンツリーから洞察を取得し、データから学習したルールを視覚化します。
アンサンブルモデルが優れた結果をもたらす傾向がある理由を理解する
ブートストラップ集計を使用してデシジョンツリーの過剰適合の課題に対処する
ランダムフォレストをトレーニング、調整、解釈する
ランダムフォレストを使用して収益性の高い取引戦略を設計および評価する

12 取引戦略を強化する

勾配ブースティングは、代替のツリーベースのアンサンブルアルゴリズムであり、多くの場合、ランダムフォレストよりも優れた結果が得られます。重要な違いは、ブースティングでは、モデルによって生じた累積誤差に基づいて各ツリーのトレーニングに使用されるデータが変更されることです。ランダムフォレストはデータのランダムなサブセットを使用して多くのツリーを独立してトレーニングしますが、ブースティングは順番に進行し、データの重み付けを変更します。この章では、最先端のライブラリがどのように優れたパフォーマンスを達成し、日次データと高頻度データの両方にブースティングを適用して日中取引戦略をバックテストするかを説明します。

より具体的には、次のトピックについて説明します。

ブースティングはバギングとどう違うのか、また勾配ブースティングは適応ブースティングからどのように進化したのか、
scikit-learn を使用して、適応型および勾配ブースティングモデルを設計および調整します。
最先端の実装である XGBoost、LightGBM、CatBoost を使用して、大規模なデータセット上で勾配ブースティングモデルを構築、最適化、評価します。
SHAP 値を使用した勾配ブースティングモデルの解釈と洞察の取得、および
高頻度データによるブースティングを使用して日中戦略を設計します。

13 教師なし学習によるデータ主導のリスク要因と資産配分

次元削減とクラスタリングは、教師なし学習の主なタスクです。

次元削減により、情報の損失を最小限に抑えながら、既存の特徴が新しい小さなセットに変換されます。情報の損失を測定する方法、線形変換か非線形変換を適用するか、新しい特徴セットに課す制約など、さまざまなアルゴリズムが存在します。
クラスタリングアルゴリズムは、新しい特徴を識別するのではなく、類似した観察または特徴を識別してグループ化します。アルゴリズムは、観察の類似性を定義する方法と、結果として得られるグループについての仮定が異なります。

より具体的には、この章では次の内容について説明します。

主成分分析および独立成分分析 (PCA および ICA) が線形次元削減を実行する方法
PCA を使用して資産収益からデータ主導のリスク要因と固有ポートフォリオを特定する
多様体学習を使用した非線形高次元データの効果的な視覚化
T-SNE と UMAP を使用して高次元画像データを探索する
K 平均法、階層型、密度ベースのクラスタリングアルゴリズムの仕組み
集合的クラスタリングを使用して階層的リスクパリティを備えた堅牢なポートフォリオを構築する

パート 3: 取引のための自然言語処理

テキストデータは内容が豊富ですが、形式が構造化されていないため、機械学習アルゴリズムが潜在的な信号を抽出できるようにするために、より多くの前処理が必要です。重要な課題は、テキストをアルゴリズムで使用できる数値形式に変換すると同時に、コンテンツのセマンティクスや意味を表現することで構成されます。

次の 3 章では、人間が容易に理解できる言語のニュアンスを捉えて、機械学習アルゴリズムでも解釈できるようにするいくつかのテクニックについて説明します。

14 取引用テキストデータ: センチメント分析

テキストデータは内容が非常に豊富ですが、構造化されていないため、ML アルゴリズムが関連情報を抽出できるようにするには、より多くの前処理が必要になります。重要な課題は、テキストの意味を失わずにテキストを数値形式に変換することです。この章では、テキスト分類とセンチメント分析の入力として機能するドキュメント用語マトリックスを作成することにより、ドキュメントをトークン数のベクトルとして表現する方法を説明します。また、Naive Bayes アルゴリズムも導入し、そのパフォーマンスを線形モデルおよびツリーベースのモデルと比較します。

この章では特に、以下について説明します。

基本的な NLP ワークフローはどのようなものなのか
spaCy と TextBlob を使用して多言語特徴抽出パイプラインを構築する方法
品詞タグ付けや固有表現認識などの NLP タスクの実行
文書用語マトリックスを使用してトークンを数値に変換する
単純ベイズモデルを使用したニュースの分類
さまざまな ML アルゴリズムを使用して感情分析を実行する方法

15 トピックモデリング: 金融ニュースの要約

この章では、教師なし学習を使用して潜在トピックをモデル化し、文書から隠れたテーマを抽出します。これらのテーマは、財務レポートの大規模なコーパスに対する詳細な洞察を生成できます。トピックモデルは、洗練された解釈可能なテキスト機能の作成を自動化し、これにより広範なテキストのコレクションから取引シグナルを抽出するのに役立ちます。これらにより、ドキュメントのレビューが高速化され、類似したドキュメントのクラスタリングが可能になり、予測モデリングに役立つ注釈が生成されます。アプリケーションには、企業開示、決算報告書や契約書の重要なテーマの特定、感情分析や関連資産の収益の使用に基づく注釈などが含まれます。

より具体的には、以下の内容がカバーされます。

トピックモデリングがどのように進化し、何を達成し、なぜそれが重要なのか
潜在的なセマンティックインデックスを使用して DTM の次元を削減する
確率的潜在意味解析 (pLSA) によるトピックの抽出
潜在ディリクレ割り当て (LDA) が pLSA を最も人気のあるトピックモデルに改善する方法
トピックモデリング結果の可視化と評価 -
scikit-learn と gensim を使用して LDA を実行する
決算報告や金融ニュース記事のコレクションにトピックモデリングを適用する方法

決算報告および SEC 提出用の 16 個の単語埋め込み

この章では、ニューラルネットワークを使用して、単語や段落などの個々の意味単位のベクトル表現を学習します。これらのベクトルは、バッグオブワードモデルの高次元の疎なベクトルと比較して、数百の実数値エントリを含む高密度です。結果として、これらのベクトルは、連続ベクトル空間に各意味単位を埋め込むか、または配置します。

埋め込みは、トークンをそのコンテキストに関連付けるモデルをトレーニングすることで得られ、同様の使用法は同様のベクトルを意味するという利点があります。その結果、相対的な位置を通じて単語間の関係などの意味論的な側面がエンコードされます。これらは強力な機能であり、次の章で深層学習モデルで使用します。

より具体的には、この章では次のことについて説明します。

単語埋め込みとは何か、また単語埋め込みが意味情報をどのように取得するか
事前トレーニングされた単語ベクトルを取得して使用する方法
word2vec モデルのトレーニングに最も効果的なネットワークアーキテクチャはどれですか
TensorFlow と gensim を使用して word2vec モデルをトレーニングする方法
単語ベクトルの品質の可視化と評価
SEC 提出書類に基づいて word2vec モデルをトレーニングして株価の動きを予測する方法
doc2vec が word2vec を拡張し、感情分析を支援する方法
トランスフォーマーの注意メカニズムが NLP に大きな影響を与えた理由
金融データに基づいて事前トレーニングされた BERT モデルを微調整する方法

パート 4: 深層学習と強化学習

パート 4 では、アルゴリズム取引にディープラーニングを活用する方法を説明し、実演します。非構造化データのパターンを識別する深層学習アルゴリズムの強力な機能により、画像やテキストなどの代替データに特に適しています。

サンプルアプリケーションでは、テキストデータと価格データを組み合わせて SEC 提出書類から予想外の収益を予測する方法、合成時系列を生成してトレーニングデータの量を拡大する方法、深層強化学習を使用して取引エージェントをトレーニングする方法などが示されています。これらのアプリケーションのいくつかは、トップジャーナルで最近発表された研究を再現しています。

17 取引のためのディープラーニング

この章では、フィードフォワードニューラルネットワーク (NN) について説明し、過学習のリスクを管理しながらバックプロパゲーションを使用して大規模なモデルを効率的にトレーニングする方法を示します。また、TensorFlow 2.0 と PyTorch の使用方法、および NN アーキテクチャを最適化して取引シグナルを生成する方法も示します。次の章では、この基盤に基づいて、代替データに焦点を当てて、さまざまなアーキテクチャをさまざまな投資アプリケーションに適用します。これらには、時系列や自然言語などのシーケンシャルデータに合わせて調整されたリカレント NN と、特に画像データに適した畳み込み NN が含まれます。また、敵対的生成ネットワーク (GAN) を使用して合成データを作成する方法など、教師なし深層学習についても説明します。さらに、環境から対話的に学習するエージェントを訓練するための強化学習についても説明します。

この章では特に、次の内容について説明します。

DL が複雑なドメインにおける AI の課題をどのように解決するか
DL を現在の人気に押し上げた主なイノベーション
フィードフォワードネットワークがデータから表現を学習する方法
Python でのディープニューラルネットワーク (NN) の設計とトレーニング
Keras、TensorFlow、PyTorch を使用したディープ NN の実装
資産収益を予測するためのディープ NN の構築と調整
ディープ NN シグナルに基づいた取引戦略の設計とバックテスト

18 金融時系列と衛星画像の CNN

CNN アーキテクチャは進化し続けています。この章では、成功するアプリケーションに共通する構成要素について説明し、転移学習で学習を高速化する方法、およびオブジェクト検出に CNN を使用する方法を示します。 CNN は画像または時系列データから取引シグナルを生成できます。衛星データは、農地、鉱山、輸送ネットワークの航空画像を通じて商品の傾向を予測できます。カメラ映像は消費者の活動を予測するのに役立ちます。衛星画像内の経済活動を分類する CNN を構築する方法を示します。 CNN は、画像との構造的類似性を利用することで高品質の時系列分類結果を提供することもでき、画像と同様にフォーマットされた時系列データに基づいて戦略を設計します。

より具体的には、この章では次の内容について説明します。

CNNSがいくつかのビルディングブロックを使用してグリッドのようなデータを効率的にモデル化する方法
Tensorflowを使用した画像および時系列データのCNNSのトレーニング、チューニング、および正規化
転送学習を使用して、データが少ない場合でもCNNSを合理化する
リターン予測を使用して取引戦略を設計します。
衛星画像に基づいて経済活動を分類する方法

19多変量時系列および感情分析のためのRNN

Recurrent Neural Networks（RNNS）は、各出力を以前の出力と新しいデータの関数として計算し、より深い計算グラフでパラメーターを共有するメモリを使用してモデルを効果的に作成します。顕著なアーキテクチャには、長期依存性の学習の課題に対処する長期記憶（LSTM）とゲート再発ユニット（GRU）が含まれます。 RNNは、1つ以上の入力シーケンスを1つ以上の出力シーケンスにマッピングするように設計されており、特に自然言語に適しています。また、市場または基本的なデータを予測するために、単変量および多変量の時系列に適用することもできます。この章では、RNNが第16章でカバーした単語埋め込みを使用して、文書で表現された感情を分類する方法を使用して、代替テキストデータをモデル化する方法について説明します。

より具体的には、この章では次のことです。

RNNがパターンを記憶し、隠された状態をモデル化できるようにする方法が再発する方法
RNNの計算グラフの展開と分析
ゲートユニットがデータからRNNメモリを規制することをどのように学習して、長距離依存関係を有効にするか
Pythonでの単変量および多変量時系列のRNNの設計とトレーニング
単語の埋め込みを学ぶ方法、またはRNNを使用した感情分析のために前処理された単語ベクトルを使用する方法
カスタムワード埋め込みを使用して在庫リターンを予測するために双方向RNNを構築する

条件付きリスク要因と資産価格設定のための20の自動エンコーダー

この章では、取引のために監視されていない深い学習を活用する方法を示しています。また、自動エンコーダー、つまり、隠れ層のパラメーターによってエンコードされた新しい表現を学習しながら、入力を再現するように訓練されたニューラルネットワークについて説明します。自動エンコーダーは、非線形の寸法削減に長い間使用されており、過去3つの章でカバーしたNNアーキテクチャを活用しています。自動エンコーダーが取引戦略を支える方法を示す最近のAQRペーパーを再現します。自動エンコーダーに依存する深いニューラルネットワークを使用して、リスク要因を抽出し、株式属性の範囲を条件付けした株式リターンを予測します。

より具体的には、この章では、次のことを学びます。

どのタイプの自動エンコーダーが実用的であり、それらがどのように機能するか
Pythonを使用した自動エンコーダーの構築とトレーニング
自動エンコーダーを使用して、資産特性を考慮してリターンを予測するデータ駆動型のリスク要因を抽出する

21合成時系列データの生成敵網

この章では、生成的敵対的ネットワーク（GAN）を紹介します。 GANSは、発電機と差別装置ネットワークを競争力のある設定でトレーニングして、発電機が特定のクラスのトレーニングデータと区別できないサンプルを生成することを学ぶようにします。目標は、このクラスを代表する合成サンプルを生成できる生成モデルを生成することです。画像データに最も人気がありますが、GANは医療ドメインで合成時系列データを生成するためにも使用されています。 GANSがMLトレーニングまたは戦略のバックテストに役立つ代替価格軌道を作成できるかどうかを、財務データを使用したその後の実験が調査されました。 2019年のニューリップスの時系列ガンペーパーを複製して、アプローチを説明し、結果を示します。

より具体的には、この章では、次のことを学びます。

GANSの仕組み、なぜそれらが有用であるのか、どのように取引に適用できるか
Tensorflow 2を使用したGANの設計とトレーニング2
MLモデルのトレーニングとバックテストに利用できる入力を拡張するための合成財務データの生成

22深い補強学習：貿易エージェントの構築

強化学習（RL）は、確率的環境と相互作用するエージェントによる目標指向学習をモデル化します。 RLは、報酬信号から州の価値とアクションを学習することにより、長期的な目的に関するエージェントの決定を最適化します。究極の目標は、行動ルールをエンコードし、状態をアクションにマップするポリシーを導き出すことです。この章では、RLの問題を策定して解決する方法を示します。モデルベースとモデルのない方法をカバーし、Openaiジム環境を導入し、深い学習をRLと組み合わせて、複雑な環境をナビゲートするエージェントを訓練します。最後に、客観的な関数を最適化しようとしながら金融市場と対話するエージェントをモデル化することにより、RLをアルゴリズム取引に適応させる方法を示します。

より具体的には、この章ではについて説明します。

マルコフ決定問題（MDP）を定義する
値とポリシーの反復を使用して、MDPを解決します
個別の状態とアクションを持つ環境でQ学習を適用する
継続的な環境で深いQ学習エージェントを構築して訓練する
Openaiジムを使用してカスタム市場環境を設計し、RLエージェントをトレーニングして在庫を取引します

23の結論と次のステップ

この最後の章では、詳細の後に全体像を見失うことを避けるために、本全体で学んだ必須のツール、アプリケーション、および教訓を簡単に要約します。その後、カバーしていない領域を特定しますが、紹介した多くの機械学習技術を拡張し、毎日の使用で生産的になる際に焦点を当てる価値があります。

要するに、この章では、そうします

重要なポイントと学んだ教訓を確認します
この本のテクニックを構築するための次のステップを指摘します
MLを投資プロセスに組み込む方法を提案します

24付録 - アルファファクターライブラリ

この本を通して、適切な前処理や除去など、機能のスマートなデザインが通常、効果的な戦略につながる方法を強調しました。この付録は、機能エンジニアリングで学んだ教訓の一部を統合し、この重要なトピックに関する追加情報を提供します。

この目的のために、TA-LIB（第4章を参照）とWorldQuantの101の定型アルファペーパー（Kakushadze 2016）によって実装される幅広い指標に焦点を当てています。 0.6-6.4日。

この章では：

Ta-LibとNumpy/Pandasを使用して数十個の技術指標を計算する方法、
定式アルファを作成する上記の論文で説明し、
ランク相関と相互情報からのさまざまなメトリックを使用して、結果の予測品質を評価して、重要性、SHAP値、およびアルファレンを特徴としています。

拡大する

追加情報

バージョン 2.0
タイプ AI ソースコード
更新時間 2025-01-27
サイズ 176.9MB
から Github

machine learning for trading

トレーディングのための ML -第2 版

ML4T コミュニティに参加してください!

第 2版の新機能は何ですか?

インストール、データソース、バグレポート

概要と章の概要

パート 1: データから戦略開発まで

01 トレーディングのための機械学習: アイデアから実行まで

02 市場および基礎データ: ソースとテクニック

03 財務用の代替データ: カテゴリとユースケース

04 金融特徴エンジニアリング: アルファファクターの調査方法

05 ポートフォリオの最適化とパフォーマンス評価

パート 2: 取引のための機械学習: 基礎

06 機械学習プロセス

07 線形モデル: リスク要因からリターン予測まで

08 ML4T ワークフロー: モデルから戦略バックテストまで

09 ボラティリティ予測と統計的裁定取引のための時系列モデル

10 ベイジアン ML: 動的シャープ レシオとペア取引

11 ランダムフォレスト: 日本株のロングショート戦略

12 取引戦略を強化する

13 教師なし学習によるデータ主導のリスク要因と資産配分

パート 3: 取引のための自然言語処理

14 取引用テキストデータ: センチメント分析

15 トピックモデリング: 金融ニュースの要約

決算報告および SEC 提出用の 16 個の単語埋め込み

パート 4: 深層学習と強化学習

17 取引のためのディープラーニング

18 金融時系列と衛星画像の CNN

19多変量時系列および感情分析のためのRNN

条件付きリスク要因と資産価格設定のための20の自動エンコーダー

21合成時系列データの生成敵網

22深い補強学習：貿易エージェントの構築

23の結論と次のステップ

24付録 - アルファファクターライブラリ

トレーディングのための ML -^第2 版

^{第 2}版の新機能は何ですか?

10 ベイジアン ML: 動的シャープレシオとペア取引