machine learning for trading Unduh - machine learning for trading Unduh kode sumber

machine learning for trading

Kode Sumber AI

2.0

Unduh

ML untuk Perdagangan - Edisi ^ke- 2

Buku ini bertujuan untuk menunjukkan bagaimana ML dapat memberi nilai tambah pada strategi perdagangan algoritmik dengan cara yang praktis namun komprehensif. Ini mencakup berbagai teknik ML mulai dari regresi linier hingga pembelajaran penguatan mendalam dan menunjukkan cara membangun, menguji ulang, dan mengevaluasi strategi perdagangan yang didorong oleh prediksi model.

Dalam empat bagian dengan 23 bab ditambah lampiran , mencakup lebih dari 800 halaman :

aspek penting dari sumber data, rekayasa fitur keuangan , dan manajemen portofolio,
desain dan evaluasi strategi jangka pendek berdasarkan algoritma ML yang diawasi dan tidak diawasi ,
cara mengekstraksi sinyal yang dapat diperdagangkan dari data teks keuangan seperti pengajuan SEC, transkrip panggilan pendapatan, atau berita keuangan,
menggunakan model pembelajaran mendalam seperti CNN dan RNN dengan data pasar dan alternatif, cara menghasilkan data sintetis dengan jaringan permusuhan generatif, dan melatih agen perdagangan menggunakan pembelajaran penguatan mendalam

Repo ini berisi lebih dari 150 buku catatan yang menerapkan konsep, algoritme, dan kasus penggunaan yang dibahas dalam buku ini. Mereka memberikan banyak contoh yang menunjukkan:

cara bekerja dengan dan mengekstraksi sinyal dari pasar, data teks dan gambar fundamental dan alternatif,
cara melatih dan menyesuaikan model yang memprediksi keuntungan untuk berbagai kelas aset dan cakrawala investasi, termasuk cara mereplikasi penelitian yang baru-baru ini diterbitkan, dan
bagaimana merancang, menguji ulang, dan mengevaluasi strategi perdagangan.

Kami sangat menyarankan untuk meninjau buku catatan sambil membaca buku; mereka biasanya dalam keadaan dieksekusi dan sering kali berisi informasi tambahan yang tidak disertakan karena keterbatasan ruang.

Selain informasi dalam repo ini, situs web buku tersebut berisi ringkasan bab dan informasi tambahan.

Bergabunglah dengan Komunitas ML4T!

Untuk memudahkan pembaca mengajukan pertanyaan tentang konten buku dan contoh kode, serta pengembangan dan penerapan strategi dan perkembangan industri mereka sendiri, kami mengadakan platform online.

Silakan bergabung dengan komunitas kami dan terhubung dengan sesama pedagang yang tertarik memanfaatkan ML untuk strategi perdagangan, berbagi pengalaman Anda, dan belajar satu sama lain!

Apa yang baru di Edisi ^ke- 2?

Pertama dan terpenting, buku ini menunjukkan bagaimana Anda dapat mengekstraksi sinyal dari beragam sumber data dan merancang strategi perdagangan untuk kelas aset yang berbeda menggunakan berbagai algoritma pembelajaran yang diawasi, tidak diawasi, dan penguatan. Ini juga memberikan pengetahuan matematika dan statistik yang relevan untuk memfasilitasi penyesuaian algoritma atau interpretasi hasil. Selain itu, ini mencakup latar belakang keuangan yang akan membantu Anda bekerja dengan data pasar dan fundamental, mengekstrak fitur informatif, dan mengelola kinerja strategi perdagangan.

Dari sudut pandang praktis, edisi ke-2 bertujuan untuk membekali Anda dengan pemahaman konseptual dan alat untuk mengembangkan strategi perdagangan berbasis ML Anda sendiri. Untuk mencapai tujuan ini, ia membingkai ML sebagai elemen penting dalam sebuah proses, bukan sebagai latihan yang berdiri sendiri, memperkenalkan ML end-to-end untuk alur kerja perdagangan mulai dari sumber data, rekayasa fitur, dan optimalisasi model hingga desain strategi dan pengujian ulang.

Lebih khusus lagi, alur kerja ML4T dimulai dengan menghasilkan ide untuk dunia investasi yang terdefinisi dengan baik, mengumpulkan data yang relevan, dan mengekstraksi fitur informatif. Hal ini juga melibatkan perancangan, penyesuaian, dan evaluasi model ML yang sesuai dengan tugas prediktif. Terakhir, diperlukan pengembangan strategi perdagangan untuk bertindak berdasarkan sinyal prediktif model, serta simulasi dan evaluasi kinerjanya pada data historis menggunakan mesin backtesting. Setelah Anda memutuskan untuk menjalankan strategi algoritmik di pasar nyata, Anda akan mengulangi alur kerja ini berulang kali untuk memasukkan informasi baru dan lingkungan yang berubah.

Penekanan edisi kedua pada alur kerja ML4t diterjemahkan ke dalam bab baru tentang pengujian ulang strategi, lampiran baru yang menjelaskan lebih dari 100 faktor alfa berbeda, dan banyak aplikasi praktis baru. Kami juga telah menulis ulang sebagian besar konten yang ada agar lebih jelas dan mudah dibaca.

Aplikasi perdagangan sekarang menggunakan sumber data yang lebih luas di luar harga harian ekuitas AS, termasuk saham internasional dan ETF. Ini juga menunjukkan cara menggunakan ML untuk strategi intraday dengan data ekuitas frekuensi menit. Selain itu, hal ini memperluas cakupan sumber data alternatif dengan memasukkan pengajuan SEC untuk analisis sentimen dan perkiraan pengembalian, serta citra satelit untuk mengklasifikasikan penggunaan lahan.

Inovasi lain pada edisi kedua ini adalah mereplikasi beberapa aplikasi perdagangan yang baru-baru ini diterbitkan di jurnal ternama:

Bab 18 menunjukkan cara menerapkan jaringan saraf konvolusional ke deret waktu yang dikonversi ke format gambar untuk prediksi kembalian berdasarkan Sezer dan Ozbahoglu (2018).
Bab 20 menunjukkan cara mengekstrak faktor risiko yang dikondisikan pada karakteristik saham untuk penetapan harga aset menggunakan autoencoder berdasarkan Autoencoder Asset Pricing Models oleh Shihao Gu, Bryan T. Kelly, dan Dacheng Xiu (2019), dan
Bab 21 menunjukkan cara membuat data pelatihan sintetik menggunakan jaringan adversarial generatif berdasarkan Time-series Generative Adversarial Networks oleh Jinsung Yoon, Daniel Jarrett, dan Mihaela van der Schaar (2019).

Semua aplikasi sekarang menggunakan versi perangkat lunak terbaru yang tersedia (pada saat penulisan) seperti pandas 1.0 dan TensorFlow 2.2. Ada juga versi Zipline yang disesuaikan yang memudahkan untuk memasukkan prediksi model pembelajaran mesin saat merancang strategi perdagangan.

Instalasi, sumber data dan laporan bug

Contoh kode bergantung pada beragam pustaka Python dari domain ilmu data dan keuangan.

Tidak perlu mencoba dan menginstal semua perpustakaan sekaligus karena hal ini meningkatkan kemungkinan terjadinya konflik versi. Sebaliknya, kami menyarankan Anda menginstal perpustakaan yang diperlukan untuk bab tertentu seiring berjalannya waktu.

Pembaruan Maret 2022: zipline-reloaded , pyfolio-reloaded , alphalens-reloaded , dan empyrical-reloaded kini tersedia di saluran conda-forge . Saluran ml4t hanya berisi versi lama dan akan segera dihapus.

Pembaruan April 2021: dengan pembaruan Zipline, Docker tidak perlu lagi digunakan. Petunjuk instalasi sekarang mengacu pada file lingkungan khusus OS yang akan menyederhanakan pengoperasian notebook Anda.

Pembaruan Februari 2021: contoh kode rilis 2.0 memperbarui lingkungan conda yang disediakan oleh image Docker ke Python 3.8, Pandas 1.2, dan TensorFlow 1.2, antara lain; lingkungan backtesting Zipline sekarang menggunakan Python 3.6.

Direktori instalasi berisi instruksi terperinci tentang pengaturan dan penggunaan image Docker untuk menjalankan notebook. Ini juga berisi file konfigurasi untuk menyiapkan berbagai lingkungan conda dan menginstal paket yang digunakan dalam notebook langsung di mesin Anda jika Anda mau (dan, tergantung pada sistem Anda, siap bekerja lebih keras).
Untuk mengunduh dan memproses terlebih dahulu banyak sumber data yang digunakan dalam buku ini, lihat instruksi dalam file README bersama berbagai buku catatan di direktori data.

Jika Anda mengalami kesulitan dalam menginstal lingkungan, mengunduh data, atau menjalankan kode, silakan ajukan masalah GitHub di repo (di sini). Mengatasi masalah GitHub telah dijelaskan di sini.

Pembaruan : Anda dapat mengunduh data algoseek yang digunakan dalam buku di sini. Lihat instruksi untuk prapemrosesan di Bab 2 dan contoh intraday dengan model peningkatan gradien di Bab 12.

Pembaruan : Direktori angka berisi versi warna dari bagan yang digunakan dalam buku.

Garis Besar & Ringkasan Bab

Buku ini memiliki empat bagian yang membahas berbagai tantangan yang muncul saat mencari dan bekerja dengan pasar, sumber data fundamental dan alternatif, mengembangkan solusi ML untuk berbagai tugas prediktif dalam konteks perdagangan, dan merancang serta mengevaluasi strategi perdagangan yang mengandalkan sinyal prediktif yang dihasilkan oleh model ML.

Direktori untuk setiap bab berisi README dengan informasi tambahan tentang konten, contoh kode, dan sumber daya tambahan.

Bagian 1: Dari Data ke Pengembangan Strategi

01 Pembelajaran Mesin untuk Perdagangan: Dari Ide hingga Eksekusi
02 Data Pasar & Fundamental: Sumber dan Teknik
03 Data Alternatif untuk Keuangan: Kategori dan Kasus Penggunaan
04 Rekayasa Fitur Keuangan: Cara meneliti Faktor Alfa
05 Optimasi Portofolio dan Evaluasi Kinerja

Bagian 2: Pembelajaran Mesin untuk Perdagangan: Dasar-Dasar

06 Proses Pembelajaran Mesin
07 Model Linier: Dari Faktor Risiko hingga Perkiraan Imbal Hasil
08 Alur Kerja ML4T: Dari Model ke Strategi Backtesting
09 Model Rangkaian Waktu untuk Prakiraan Volatilitas dan Arbitrase Statistik
10 Bayesian ML: Rasio Sharpe Dinamis dan Perdagangan Berpasangan
11 Random Forests: Strategi Panjang-Pendek untuk Saham Jepang
12 Meningkatkan Strategi Trading Anda
13 Faktor Risiko Berdasarkan Data dan Alokasi Aset dengan Pembelajaran Tanpa Pengawasan

Bagian 3: Pemrosesan Bahasa Alami untuk Perdagangan

14 Data Teks untuk Perdagangan: Analisis Sentimen
15 Pemodelan Topik: Meringkas Berita Keuangan
16 Penyematan kata untuk Panggilan Pendapatan dan Pengarsipan SEC

Bagian 4: Pembelajaran Mendalam & Penguatan

17 Pembelajaran Mendalam untuk Trading
18 CNN untuk Rangkaian Waktu Finansial dan Gambar Satelit
19 RNN untuk Rangkaian Waktu Multivariat dan Analisis Sentimen
20 Autoencoder untuk Faktor Risiko Bersyarat dan Harga Aset
21 Jaring Adversarial Generatif untuk Data Deret Waktu Sintetis
22 Pembelajaran Penguatan Mendalam: Membangun Agen Perdagangan
23 Kesimpulan dan Langkah Selanjutnya
24 Lampiran - Perpustakaan Faktor Alfa

Bagian 1: Dari Data ke Pengembangan Strategi

Bagian pertama memberikan kerangka kerja untuk mengembangkan strategi perdagangan yang didorong oleh pembelajaran mesin (ML). Panduan ini berfokus pada data yang mendukung algoritme dan strategi ML yang dibahas dalam buku ini, menguraikan cara merekayasa dan mengevaluasi fitur yang sesuai untuk model ML, serta cara mengelola dan mengukur kinerja portofolio saat menjalankan strategi perdagangan.

01 Pembelajaran Mesin untuk Perdagangan: Dari Ide hingga Eksekusi

Bab ini mengeksplorasi tren industri yang menyebabkan munculnya ML sebagai sumber keunggulan kompetitif dalam industri investasi. Kami juga akan melihat kesesuaian ML dengan proses investasi untuk mengaktifkan strategi perdagangan algoritmik.

Lebih khusus lagi, ini mencakup topik-topik berikut:

Tren utama di balik kebangkitan ML di industri investasi
Desain dan eksekusi strategi perdagangan yang memanfaatkan ML
Kasus penggunaan ML yang populer dalam perdagangan

02 Data Pasar & Fundamental: Sumber dan Teknik

Bab ini menunjukkan cara bekerja dengan data pasar dan data fundamental serta menjelaskan aspek-aspek penting dari lingkungan yang tercermin dari data tersebut. Misalnya, pemahaman terhadap berbagai jenis pesanan dan infrastruktur perdagangan tidak hanya penting dalam interpretasi data tetapi juga dalam merancang simulasi backtest dengan benar. Kami juga mengilustrasikan cara menggunakan Python untuk mengakses dan memanipulasi data perdagangan dan laporan keuangan.

Contoh praktis menunjukkan cara bekerja dengan data perdagangan dari data tick NASDAQ dan data menit Algoseek dengan serangkaian atribut yang menangkap dinamika permintaan-penawaran yang nantinya akan kita gunakan untuk strategi intraday berbasis ML. Kami juga membahas berbagai API penyedia data dan cara mendapatkan informasi laporan keuangan dari SEC.

Secara khusus, bab ini mencakup:

Bagaimana data pasar mencerminkan struktur lingkungan perdagangan
Bekerja dengan perdagangan intraday dan data kuotasi pada frekuensi menit
Merekonstruksi buku limit order dari data tick menggunakan NASDAQ ITCH
Meringkas data tick menggunakan berbagai jenis batang
Bekerja dengan pengarsipan elektronik berkode eXtensible Business Reporting Language (XBRL).
Mengurai dan menggabungkan data pasar dan fundamental untuk membuat seri P/E
Cara mengakses berbagai sumber data pasar dan fundamental menggunakan Python

03 Data Alternatif untuk Keuangan: Kategori dan Kasus Penggunaan

Bab ini menguraikan kategori dan kasus penggunaan data alternatif, menjelaskan kriteria untuk menilai banyaknya sumber dan penyedia, dan merangkum lanskap pasar saat ini.

Hal ini juga menunjukkan cara membuat kumpulan data alternatif dengan mengambil situs web, seperti mengumpulkan transkrip panggilan pendapatan untuk digunakan dengan pemrosesan bahasa alami (NLP) dan algoritma analisis sentimen di bagian ketiga buku ini.

Lebih khusus lagi, bab ini mencakup:

Sumber sinyal baru manakah yang muncul selama revolusi data alternatif
Bagaimana individu, bisnis, dan sensor menghasilkan beragam data alternatif
Kategori penting dan penyedia data alternatif
Mengevaluasi bagaimana pasokan data alternatif yang terus meningkat dapat digunakan untuk perdagangan
Bekerja dengan data alternatif dengan Python, seperti dengan menggores internet

04 Rekayasa Fitur Keuangan: Cara meneliti Faktor Alfa

Jika Anda sudah familiar dengan ML, Anda pasti tahu bahwa rekayasa fitur adalah unsur penting agar prediksi berhasil. Hal ini sama pentingnya dalam bidang perdagangan, di mana peneliti akademis dan industri telah menyelidiki selama beberapa dekade apa yang mendorong pasar aset dan harga, dan fitur apa yang membantu menjelaskan atau memprediksi pergerakan harga.

Bab ini menguraikan kesimpulan utama dari penelitian ini sebagai titik awal untuk pencarian Anda terhadap faktor alfa. Ini juga menyajikan alat penting untuk menghitung dan menguji faktor alfa, menyoroti bagaimana perpustakaan NumPy, pandas, dan TA-Lib memfasilitasi manipulasi data dan menyajikan teknik pemulusan populer seperti wavelet dan filter Kalman yang membantu mengurangi noise dalam data. Setelah membacanya, Anda akan mengetahui tentang:

Kategori faktor apa yang ada, alasan kerjanya, dan cara mengukurnya,
Membuat faktor alfa menggunakan NumPy, pandas, dan TA-Lib,
Cara menghilangkan noise data menggunakan wavelet dan filter Kalman,
Menggunakan Zipline untuk menguji faktor alfa individual dan beberapa,
Cara menggunakan Alphalens untuk mengevaluasi kinerja prediktif.

05 Optimasi Portofolio dan Evaluasi Kinerja

Faktor alfa menghasilkan sinyal yang diterjemahkan oleh strategi algoritmik menjadi perdagangan, yang pada gilirannya menghasilkan posisi panjang dan pendek. Pengembalian dan risiko portofolio yang dihasilkan menentukan apakah strategi tersebut memenuhi tujuan investasi.

Ada beberapa pendekatan untuk mengoptimalkan portofolio. Hal ini mencakup penerapan pembelajaran mesin (ML) untuk mempelajari hubungan hierarki antar aset dan memperlakukannya sebagai pelengkap atau pengganti saat merancang profil risiko portofolio. Bab ini mencakup:

Bagaimana mengukur risiko dan pengembalian portofolio
Mengelola bobot portofolio menggunakan optimasi dan alternatif mean-variance
Menggunakan pembelajaran mesin untuk mengoptimalkan alokasi aset dalam konteks portofolio
Simulasikan perdagangan dan buat portofolio berdasarkan faktor alfa menggunakan Zipline
Cara mengevaluasi kinerja portofolio menggunakan pyfolio

Bagian 2: Pembelajaran Mesin untuk Perdagangan: Dasar-dasar

Bagian kedua mencakup algoritma pembelajaran dasar yang diawasi dan tidak diawasi serta menggambarkan penerapannya pada strategi perdagangan. Buku ini juga memperkenalkan platform Quantopian yang memungkinkan Anda memanfaatkan dan menggabungkan data dan teknik ML yang dikembangkan dalam buku ini untuk menerapkan strategi algoritmik yang mengeksekusi perdagangan di pasar langsung.

06 Proses Pembelajaran Mesin

Bab ini memulai Bagian 2 yang mengilustrasikan bagaimana Anda dapat menggunakan berbagai model ML yang diawasi dan tidak diawasi untuk berdagang. Kami akan menjelaskan asumsi masing-masing model dan kasus penggunaan sebelum kami mendemonstrasikan aplikasi yang relevan menggunakan berbagai pustaka Python.

Ada beberapa aspek yang sama-sama dimiliki oleh banyak model ini dan penerapannya. Bab ini membahas aspek-aspek umum ini sehingga kita dapat fokus pada penggunaan khusus model di bab-bab berikutnya. Ini menetapkan tahapan dengan menguraikan cara merumuskan, melatih, menyesuaikan, dan mengevaluasi kinerja prediktif model ML sebagai alur kerja yang sistematis. Kontennya meliputi:

Cara kerja pembelajaran yang diawasi dan tidak diawasi dari data
Melatih dan mengevaluasi model pembelajaran yang diawasi untuk tugas regresi dan klasifikasi
Bagaimana trade-off bias-varians berdampak pada kinerja prediktif
Cara mendiagnosis dan mengatasi kesalahan prediksi akibat overfitting
Menggunakan validasi silang untuk mengoptimalkan hyperparameter dengan fokus pada data deret waktu
Mengapa data keuangan memerlukan perhatian tambahan saat pengujian di luar sampel

07 Model Linier: Dari Faktor Risiko hingga Perkiraan Imbal Hasil

Model linier adalah alat standar untuk inferensi dan prediksi dalam konteks regresi dan klasifikasi. Banyak model penetapan harga aset yang banyak digunakan mengandalkan regresi linier. Model yang diregulasi seperti regresi Ridge dan Lasso sering kali menghasilkan prediksi yang lebih baik dengan membatasi risiko overfitting. Aplikasi regresi umum mengidentifikasi faktor risiko yang mendorong pengembalian aset untuk mengelola risiko atau memprediksi pengembalian. Masalah klasifikasi, di sisi lain, mencakup perkiraan harga terarah.

Bab 07 mencakup topik-topik berikut:

Cara kerja regresi linier dan asumsi yang dibuat
Pelatihan dan diagnosis model regresi linier
Menggunakan regresi linier untuk memprediksi return saham
Gunakan regularisasi untuk meningkatkan kinerja prediktif
Cara kerja regresi logistik
Mengubah regresi menjadi masalah klasifikasi

08 Alur Kerja ML4T: Dari Model ke Strategi Backtesting

Bab ini menyajikan perspektif menyeluruh dalam merancang, mensimulasikan, dan mengevaluasi strategi perdagangan yang didorong oleh algoritma ML. Kami akan mendemonstrasikan secara detail cara melakukan backtest strategi berbasis ML dalam konteks pasar historis menggunakan backtrader pustaka Python dan Zipline. Alur kerja ML4T pada akhirnya bertujuan untuk mengumpulkan bukti dari data historis yang membantu memutuskan apakah akan menerapkan strategi kandidat di pasar saat ini dan membahayakan sumber daya keuangan. Simulasi realistis dari strategi Anda harus mewakili dengan tepat bagaimana pasar sekuritas beroperasi dan bagaimana perdagangan dieksekusi. Selain itu, beberapa aspek metodologis memerlukan perhatian untuk menghindari hasil yang bias dan penemuan palsu yang akan mengakibatkan keputusan investasi yang buruk.

Lebih khusus lagi, setelah mempelajari bab ini Anda akan dapat:

Merencanakan dan menerapkan backtesting strategi end-to-end
Pahami dan hindari kesalahan kritis saat menerapkan backtests
Diskusikan kelebihan dan kekurangan mesin backtesting yang divektorisasi vs yang digerakkan oleh peristiwa
Identifikasi dan evaluasi komponen kunci dari backtester berbasis peristiwa
Rancang dan jalankan alur kerja ML4T menggunakan sumber data pada frekuensi menit dan harian, dengan model ML dilatih secara terpisah atau sebagai bagian dari backtest
Gunakan Zipline dan backtrader untuk merancang dan mengevaluasi strategi Anda sendiri

09 Model Rangkaian Waktu untuk Prakiraan Volatilitas dan Arbitrase Statistik

Bab ini berfokus pada model yang mengekstraksi sinyal dari riwayat rangkaian waktu untuk memprediksi nilai masa depan untuk rangkaian waktu yang sama. Model deret waktu banyak digunakan karena dimensi waktu yang melekat pada perdagangan. Ini menyajikan alat untuk mendiagnosis karakteristik deret waktu seperti stasioneritas dan mengekstrak fitur yang menangkap pola yang berpotensi berguna. Hal ini juga memperkenalkan model deret waktu univariat dan multivariat untuk memperkirakan data makro dan pola volatilitas. Yang terakhir, penjelasan ini menjelaskan bagaimana kointegrasi mengidentifikasi tren umum di seluruh rangkaian waktu dan menunjukkan cara mengembangkan strategi perdagangan berpasangan berdasarkan konsep penting ini.

Secara khusus, ini mencakup:

Bagaimana menggunakan analisis deret waktu untuk mempersiapkan dan menginformasikan proses pemodelan
Memperkirakan dan mendiagnosis model autoregresif univariat dan rata-rata bergerak
Membangun model autoregressive conditional heteroskedasticity (ARCH) untuk memprediksi volatilitas
Cara membuat model autoregresif vektor multivariat
Menggunakan kointegrasi untuk mengembangkan strategi perdagangan berpasangan

10 Bayesian ML: Rasio Sharpe Dinamis dan Perdagangan Berpasangan

Statistik Bayesian memungkinkan kita mengukur ketidakpastian mengenai kejadian di masa depan dan menyempurnakan perkiraan dengan cara yang prinsip ketika informasi baru tiba. Pendekatan dinamis ini beradaptasi dengan baik terhadap sifat pasar keuangan yang terus berkembang. Pendekatan Bayesian terhadap ML memungkinkan wawasan baru tentang ketidakpastian seputar metrik statistik, estimasi parameter, dan prediksi. Penerapannya berkisar dari manajemen risiko yang lebih terperinci hingga pembaruan dinamis model prediktif yang menggabungkan perubahan dalam lingkungan pasar.

Lebih khusus lagi, bab ini mencakup:

Bagaimana statistik Bayesian diterapkan pada pembelajaran mesin
Pemrograman probabilistik dengan PyMC3
Mendefinisikan dan melatih model pembelajaran mesin menggunakan PyMC3
Cara menjalankan metode pengambilan sampel yang canggih untuk melakukan perkiraan inferensi
Aplikasi Bayesian ML untuk menghitung rasio Sharpe dinamis, rasio lindung nilai perdagangan pasangan dinamis, dan memperkirakan volatilitas stokastik

11 Random Forests: Strategi Panjang-Pendek untuk Saham Jepang

Bab ini menerapkan pohon keputusan dan hutan acak pada perdagangan. Pohon keputusan mempelajari aturan dari data yang mengkodekan hubungan input-output nonlinier. Kami menunjukkan cara melatih pohon keputusan untuk membuat prediksi masalah regresi dan klasifikasi, memvisualisasikan dan menafsirkan aturan yang dipelajari oleh model, dan menyesuaikan hyperparameter model untuk mengoptimalkan tradeoff bias-varians dan mencegah overfitting.

Bagian kedua dari bab ini memperkenalkan model ansambel yang menggabungkan beberapa pohon keputusan secara acak untuk menghasilkan prediksi tunggal dengan kesalahan lebih rendah. Bagian ini diakhiri dengan strategi jangka panjang dan pendek untuk ekuitas Jepang berdasarkan sinyal perdagangan yang dihasilkan oleh model hutan acak.

Singkatnya, bab ini mencakup:

Gunakan pohon keputusan untuk regresi dan klasifikasi
Dapatkan wawasan dari pohon keputusan dan visualisasikan aturan yang dipelajari dari data
Pahami mengapa model ansambel cenderung memberikan hasil yang lebih unggul
Gunakan agregasi bootstrap untuk mengatasi tantangan penyesuaian pohon keputusan yang berlebihan
Latih, sesuaikan, dan tafsirkan hutan acak
Gunakan hutan acak untuk merancang dan mengevaluasi strategi perdagangan yang menguntungkan

12 Meningkatkan Strategi Trading Anda

Peningkatan gradien adalah algoritme ansambel berbasis pohon alternatif yang sering kali memberikan hasil lebih baik daripada hutan acak. Perbedaan pentingnya adalah boosting memodifikasi data yang digunakan untuk melatih setiap pohon berdasarkan kesalahan kumulatif yang dibuat oleh model. Sementara hutan acak melatih banyak pohon secara independen menggunakan subkumpulan data acak, meningkatkan hasil secara berurutan dan menimbang ulang data. Bab ini menunjukkan bagaimana perpustakaan canggih mencapai kinerja yang mengesankan dan menerapkan peningkatan pada data harian dan frekuensi tinggi untuk mendukung strategi perdagangan intraday.

Lebih khusus lagi, kami akan membahas topik-topik berikut:

Apa perbedaan antara peningkatan dan pengepakan, dan bagaimana peningkatan gradien berevolusi dari peningkatan adaptif,
Rancang dan sesuaikan model adaptif dan peningkatan gradien dengan scikit-learn,
Bangun, optimalkan, dan evaluasi model peningkatan gradien pada kumpulan data besar dengan implementasi canggih XGBoost, LightGBM, dan CatBoost,
Menafsirkan dan memperoleh wawasan dari model peningkatan gradien menggunakan nilai SHAP, dan
Menggunakan peningkatan dengan data frekuensi tinggi untuk merancang strategi intraday.

13 Faktor Risiko Berdasarkan Data dan Alokasi Aset dengan Pembelajaran Tanpa Pengawasan

Pengurangan dimensi dan pengelompokan adalah tugas utama pembelajaran tanpa pengawasan:

Pengurangan dimensi mengubah fitur yang ada menjadi fitur baru yang lebih kecil sekaligus meminimalkan hilangnya informasi. Terdapat beragam algoritme yang berbeda dalam cara mereka mengukur hilangnya informasi, apakah algoritme tersebut menerapkan transformasi linier atau non-linier, atau batasan yang diterapkan pada rangkaian fitur baru.
Algoritme pengelompokan mengidentifikasi dan mengelompokkan pengamatan atau fitur serupa alih-alih mengidentifikasi fitur baru. Algoritme berbeda dalam cara mereka mendefinisikan kesamaan pengamatan dan asumsi mereka tentang kelompok yang dihasilkan.

Lebih khusus lagi, bab ini mencakup:

Bagaimana analisis komponen utama dan independen (PCA dan ICA) melakukan reduksi dimensi linier
Mengidentifikasi faktor risiko berbasis data dan portofolio eigen dari pengembalian aset menggunakan PCA
Memvisualisasikan data nonlinier dan berdimensi tinggi secara efektif menggunakan pembelajaran yang beragam
Menggunakan T-SNE dan UMAP untuk mengeksplorasi data gambar berdimensi tinggi
Cara kerja algoritma pengelompokan k-means, hierarki, dan berbasis kepadatan
Menggunakan pengelompokan aglomeratif untuk membangun portofolio yang kuat dengan paritas risiko hierarkis

Bagian 3: Pemrosesan Bahasa Alami untuk Perdagangan

Data teks kaya akan konten, namun formatnya tidak terstruktur sehingga memerlukan lebih banyak pra-pemrosesan agar algoritme pembelajaran mesin dapat mengekstraksi sinyal potensial. Tantangan kritisnya terdiri dari mengubah teks menjadi format numerik untuk digunakan oleh suatu algoritma, sekaligus mengekspresikan semantik atau makna konten.

Tiga bab berikutnya membahas beberapa teknik yang menangkap nuansa bahasa yang mudah dipahami manusia sehingga algoritma pembelajaran mesin juga dapat menafsirkannya.

14 Data Teks untuk Perdagangan: Analisis Sentimen

Data teks sangat kaya akan konten tetapi sangat tidak terstruktur sehingga memerlukan lebih banyak pra-pemrosesan agar algoritme ML dapat mengekstrak informasi yang relevan. Tantangan utamanya adalah mengubah teks menjadi format numerik tanpa kehilangan maknanya. Bab ini menunjukkan cara merepresentasikan dokumen sebagai vektor jumlah token dengan membuat matriks istilah dokumen yang, pada gilirannya, berfungsi sebagai masukan untuk klasifikasi teks dan analisis sentimen. Ia juga memperkenalkan algoritma Naive Bayes dan membandingkan kinerjanya dengan model linier dan berbasis pohon.

Secara khusus, dalam bab ini meliputi:

Seperti apa alur kerja dasar NLP
Cara membuat pipeline ekstraksi fitur multibahasa menggunakan spaCy dan TextBlob
Melakukan tugas NLP seperti penandaan bagian ucapan atau pengenalan entitas bernama
Mengubah token menjadi angka menggunakan matriks istilah dokumen
Mengklasifikasikan berita menggunakan model Naive Bayes
Cara melakukan analisis sentimen menggunakan algoritma ML yang berbeda

15 Pemodelan Topik: Meringkas Berita Keuangan

Bab ini menggunakan pembelajaran tanpa pengawasan untuk memodelkan topik laten dan mengekstrak tema tersembunyi dari dokumen. Tema-tema ini dapat menghasilkan wawasan terperinci mengenai kumpulan besar laporan keuangan. Model topik mengotomatiskan pembuatan fitur teks canggih dan dapat ditafsirkan yang, pada gilirannya, dapat membantu mengekstraksi sinyal perdagangan dari kumpulan teks yang luas. Mereka mempercepat peninjauan dokumen, memungkinkan pengelompokan dokumen serupa, dan menghasilkan anotasi yang berguna untuk pemodelan prediktif. Penerapannya mencakup mengidentifikasi tema-tema penting dalam pengungkapan perusahaan, transkrip atau kontrak panggilan pendapatan, dan anotasi berdasarkan analisis sentimen atau menggunakan pengembalian aset terkait.

Lebih khusus lagi, ini mencakup:

Bagaimana pemodelan topik berkembang, apa yang dicapai, dan mengapa hal itu penting
Mengurangi dimensi DTM menggunakan pengindeksan semantik laten
Mengekstraksi topik dengan analisis semantik laten probabilistik (pLSA)
Bagaimana alokasi Dirichlet laten (LDA) meningkatkan pLSA menjadi model topik paling populer
Memvisualisasikan dan mengevaluasi hasil pemodelan topik -
Menjalankan LDA menggunakan scikit-learn dan gensim
Cara menerapkan pemodelan topik pada kumpulan panggilan pendapatan dan artikel berita keuangan

16 Penyematan kata untuk Panggilan Pendapatan dan Pengarsipan SEC

Bab ini menggunakan jaringan saraf untuk mempelajari representasi vektor unit semantik individual seperti kata atau paragraf. Vektor-vektor ini padat dengan beberapa ratus entri bernilai nyata, dibandingkan dengan vektor-vektor renggang berdimensi lebih tinggi pada model bag-of-words. Akibatnya, vektor-vektor ini menyematkan atau menempatkan setiap unit semantik dalam ruang vektor kontinu.

Penyematan dihasilkan dari pelatihan model untuk menghubungkan token dengan konteksnya dengan manfaat bahwa penggunaan serupa menyiratkan vektor serupa. Hasilnya, mereka mengkodekan aspek semantik seperti hubungan antar kata melalui lokasi relatifnya. Ini adalah fitur canggih yang akan kita gunakan dengan model pembelajaran mendalam di bab berikutnya.

Lebih khusus lagi, dalam bab ini, kita akan membahas:

Apa itu penyematan kata dan bagaimana kata tersebut menangkap informasi semantik
Cara mendapatkan dan menggunakan vektor kata terlatih
Arsitektur jaringan mana yang paling efektif dalam melatih model word2vec
Cara melatih model word2vec menggunakan TensorFlow dan gensim
Memvisualisasikan dan mengevaluasi kualitas vektor kata
Cara melatih model word2vec pada pengajuan SEC untuk memprediksi pergerakan harga saham
Bagaimana doc2vec memperluas word2vec dan membantu analisis sentimen
Mengapa mekanisme perhatian trafo berdampak besar pada NLP
Cara menyempurnakan model BERT terlatih pada data keuangan

Bagian 4: Pembelajaran Mendalam & Penguatan

Bagian keempat menjelaskan dan mendemonstrasikan cara memanfaatkan pembelajaran mendalam untuk perdagangan algoritmik. Kemampuan algoritma pembelajaran mendalam yang kuat untuk mengidentifikasi pola dalam data tidak terstruktur membuatnya sangat cocok untuk data alternatif seperti gambar dan teks.

Contoh aplikasi menunjukkan, misalnya, cara menggabungkan data teks dan harga untuk memprediksi kejutan pendapatan dari pengajuan SEC, menghasilkan rangkaian waktu sintetis untuk memperluas jumlah data pelatihan, dan melatih agen perdagangan menggunakan pembelajaran penguatan mendalam. Beberapa dari aplikasi ini meniru penelitian yang baru-baru ini diterbitkan di jurnal terkemuka.

17 Pembelajaran Mendalam untuk Trading

Bab ini menyajikan jaringan neural feedforward (NN) dan menunjukkan cara melatih model besar secara efisien menggunakan propagasi mundur sambil mengelola risiko overfitting. Panduan ini juga menunjukkan cara menggunakan TensorFlow 2.0 dan PyTorch serta cara mengoptimalkan arsitektur NN untuk menghasilkan sinyal perdagangan. Pada bab-bab berikut, kita akan membangun landasan ini untuk menerapkan berbagai arsitektur pada berbagai aplikasi investasi dengan fokus pada data alternatif. Ini termasuk NN berulang yang disesuaikan dengan data sekuensial seperti deret waktu atau bahasa alami dan NN konvolusional, yang sangat cocok untuk data gambar. Kami juga akan membahas pembelajaran mendalam tanpa pengawasan, seperti cara membuat data sintetis menggunakan Generative Adversarial Networks (GAN). Selain itu, kita akan membahas pembelajaran penguatan untuk melatih agen yang belajar secara interaktif dari lingkungannya.

Secara khusus, bab ini akan membahasnya

Bagaimana DL memecahkan tantangan AI di domain yang kompleks
Inovasi utama yang mendorong DL mencapai popularitasnya saat ini
Bagaimana jaringan feedforward mempelajari representasi dari data
Merancang dan melatih jaringan saraf dalam (NN) dengan Python
Menerapkan NN mendalam menggunakan Keras, TensorFlow, dan PyTorch
Membangun dan menyempurnakan NN yang mendalam untuk memprediksi pengembalian aset
Merancang dan menguji ulang strategi perdagangan berdasarkan sinyal NN yang dalam

18 CNN untuk Rangkaian Waktu Finansial dan Gambar Satelit

Arsitektur CNN terus berkembang. Bab ini menjelaskan elemen dasar yang umum untuk aplikasi yang sukses, menunjukkan bagaimana pembelajaran transfer dapat mempercepat pembelajaran, dan cara menggunakan CNN untuk deteksi objek. CNN dapat menghasilkan sinyal perdagangan dari gambar atau data deret waktu. Data satelit dapat mengantisipasi tren komoditas melalui citra udara dari area pertanian, pertambangan, atau jaringan transportasi. Rekaman kamera dapat membantu memprediksi aktivitas konsumen; kami menunjukkan cara membuat CNN yang mengklasifikasikan aktivitas ekonomi dalam citra satelit. CNN juga dapat memberikan hasil klasifikasi deret waktu berkualitas tinggi dengan memanfaatkan kesamaan strukturalnya dengan gambar, dan kami merancang strategi berdasarkan data deret waktu yang diformat seperti gambar.

Lebih khusus lagi, bab ini mencakup:

Bagaimana CNN menggunakan beberapa blok bangunan untuk memodelkan data seperti grid secara efisien
Pelatihan, Tuning dan Regrovisasi CNNs untuk Gambar dan Data Seri Waktu Menggunakan TensorFlow
Menggunakan transfer pembelajaran untuk merampingkan CNNs, bahkan dengan data yang lebih sedikit
Mendesain strategi perdagangan menggunakan prediksi pengembalian dengan CNN yang dilatih pada data seri-time yang diformat seperti gambar
Cara mengklasifikasikan aktivitas ekonomi berdasarkan gambar satelit

19 RNN untuk seri waktu multivariat dan analisis sentimen

Recurrent Neural Networks (RNNs) menghitung setiap output sebagai fungsi dari output sebelumnya dan data baru, secara efektif membuat model dengan memori yang berbagi parameter di seluruh grafik komputasi yang lebih dalam. Arsitektur terkemuka termasuk memori jangka pendek (LSTM) dan unit berulang yang terjaga keamanannya (GRU) yang mengatasi tantangan belajar ketergantungan jangka panjang. RNN dirancang untuk memetakan satu atau lebih urutan input ke satu atau lebih urutan output dan sangat cocok untuk bahasa alami. Mereka juga dapat diterapkan pada deret waktu univariat dan multivariat untuk memprediksi data pasar atau fundamental. Bab ini mencakup bagaimana RNN dapat memodelkan data teks alternatif menggunakan kata embeddings yang kami bahas dalam Bab 16 untuk mengklasifikasikan sentimen yang diungkapkan dalam dokumen.

Lebih khusus lagi, bab ini membahas:

Bagaimana koneksi berulang memungkinkan RNNs untuk menghafal pola dan memodelkan keadaan tersembunyi
Membuka perguruan tinggi dan menganalisis grafik komputasi RNNS
Bagaimana Unit Gated Belajar Mengatur Memori RNN Dari Data Untuk Mengaktifkan Ketergantungan Jangka Panjang
Merancang dan melatih RNN untuk seri waktu univariat dan multivariat dalam Python
Cara mempelajari embeddings kata atau menggunakan vektor kata pretrained untuk analisis sentimen dengan rnns
Membangun RNN dua arah untuk memprediksi pengembalian saham menggunakan embeddings kata khusus

20 Autoencoders untuk faktor risiko bersyarat dan harga aset

Bab ini menunjukkan cara memanfaatkan pembelajaran mendalam tanpa pengawasan untuk perdagangan. Kami juga membahas autoencoders, yaitu, jaringan saraf yang dilatih untuk mereproduksi input sambil mempelajari representasi baru yang dikodekan oleh parameter lapisan tersembunyi. Autoencoder telah lama digunakan untuk pengurangan dimensi nonlinier, memanfaatkan arsitektur NN yang kami liput dalam tiga bab terakhir. Kami mereplikasi kertas AQR terbaru yang menunjukkan bagaimana autoencoders dapat mendukung strategi perdagangan. Kami akan menggunakan jaringan saraf dalam yang bergantung pada autoencoder untuk mengekstraksi faktor risiko dan memprediksi pengembalian ekuitas, dikondisikan pada berbagai atribut ekuitas.

Lebih khusus lagi, dalam bab ini Anda akan belajar tentang:

Jenis autoencoder apa yang digunakan secara praktis dan cara kerjanya
Membangun dan melatih Autoencoders Menggunakan Python
Menggunakan autoencoders untuk mengekstraksi faktor risiko berbasis data yang memperhitungkan karakteristik aset untuk memprediksi pengembalian

21 jaring permusuhan generatif untuk data deret waktu sintetis

Bab ini memperkenalkan jaringan permusuhan generatif (GAN). Gans melatih generator dan jaringan diskriminator dalam pengaturan kompetitif sehingga generator belajar menghasilkan sampel yang tidak dapat membedakan diskriminator dari kelas data pelatihan tertentu. Tujuannya adalah untuk menghasilkan model generatif yang mampu menghasilkan sampel sintetis yang mewakili kelas ini. Sementara yang paling populer dengan data gambar, GAN juga telah digunakan untuk menghasilkan data seri waktu sintetis dalam domain medis. Eksperimen selanjutnya dengan data keuangan mengeksplorasi apakah GANS dapat menghasilkan lintasan harga alternatif yang berguna untuk pelatihan ML atau backtest strategi. Kami mereplikasi kertas GAN series-series 2019 untuk menggambarkan pendekatan dan menunjukkan hasilnya.

Lebih khusus lagi, dalam bab ini Anda akan belajar tentang:

Bagaimana gans bekerja, mengapa mereka berguna, dan bagaimana mereka dapat diterapkan pada perdagangan
Merancang dan melatih gans menggunakan TensorFlow 2
Menghasilkan data keuangan sintetis untuk memperluas input yang tersedia untuk model pelatihan ML dan backtesting

22 Pembelajaran Penguatan Deep: Membangun Agen Perdagangan

Model Pembelajaran Penguatan (RL) Pembelajaran yang diarahkan pada tujuan oleh agen yang berinteraksi dengan lingkungan stokastik. RL mengoptimalkan keputusan agen mengenai tujuan jangka panjang dengan mempelajari nilai negara dan tindakan dari sinyal hadiah. Tujuan utamanya adalah untuk memperoleh kebijakan yang mengkode aturan perilaku dan memetakan negara -negara untuk tindakan. Bab ini menunjukkan cara merumuskan dan memecahkan masalah RL. Ini mencakup metode berbasis model dan bebas model, memperkenalkan lingkungan gym openai, dan menggabungkan pembelajaran mendalam dengan RL untuk melatih agen yang menavigasi lingkungan yang kompleks. Akhirnya, kami akan menunjukkan kepada Anda cara beradaptasi dengan perdagangan algoritmik dengan memodelkan agen yang berinteraksi dengan pasar keuangan sambil mencoba mengoptimalkan fungsi objektif.

Lebih khusus lagi, bab ini akan mencakup:

Tentukan Masalah Keputusan Markov (MDP)
Gunakan nilai dan iterasi kebijakan untuk menyelesaikan MDP
Terapkan Q-Learning di lingkungan dengan negara bagian dan tindakan yang terpisah
Membangun dan melatih agen pembelajaran Q yang dalam di lingkungan yang berkelanjutan
Gunakan gym openai untuk merancang lingkungan pasar khusus dan melatih agen RL untuk memperdagangkan saham

23 Kesimpulan dan Langkah Selanjutnya

Dalam bab penutup ini, kami akan secara singkat merangkum alat -alat penting, aplikasi, dan pelajaran yang dipetik di seluruh buku untuk menghindari kehilangan gambaran besar setelah begitu banyak detail. Kami kemudian akan mengidentifikasi bidang -bidang yang tidak kami liput tetapi akan layak untuk difokuskan saat Anda memperluas banyak teknik pembelajaran mesin yang kami perkenalkan dan menjadi produktif dalam penggunaan sehari -hari.

Singkatnya, dalam bab ini, kami akan melakukannya

Tinjau Kunci Takeaways dan Pelajaran yang Dipetik
Tunjukkan langkah selanjutnya untuk membangun teknik dalam buku ini
Sarankan cara untuk memasukkan ML ke dalam proses investasi Anda

24 Lampiran - Perpustakaan Faktor Alpha

Sepanjang buku ini, kami menekankan bagaimana desain fitur yang cerdas, termasuk preprocessing dan denoising yang tepat, biasanya mengarah ke strategi yang efektif. Lampiran ini mensintesis beberapa pelajaran yang dipetik tentang rekayasa fitur dan memberikan informasi tambahan tentang topik vital ini.

Untuk tujuan ini, kami fokus pada berbagai indikator yang diimplementasikan oleh Ta-Lib (lihat Bab 4) dan 101 Worldquant's 101 Formula Alphas Paper (Kakushadze 2016), yang menyajikan faktor perdagangan kuantitatif kehidupan nyata yang digunakan dalam produksi dengan periode holding rata-rata dari 0.6-6.4 hari.

Bab ini mencakup:

Cara menghitung beberapa lusin indikator teknis menggunakan ta-lib dan numpy/panda,
Membuat alfa formula yang dijelaskan dalam makalah di atas, dan
Mengevaluasi kualitas prediktif hasil menggunakan berbagai metrik dari korelasi peringkat dan informasi timbal balik untuk menampilkan kepentingan, nilai Shap dan alfalens.

Memperluas

Informasi Tambahan