Ce livre vise à montrer comment le ML peut ajouter de la valeur aux stratégies de trading algorithmique de manière pratique mais complète. Il couvre un large éventail de techniques de ML, de la régression linéaire à l'apprentissage par renforcement profond, et montre comment créer, tester et évaluer une stratégie de trading basée sur les prédictions du modèle.
En quatre parties de 23 chapitres plus une annexe , il couvre sur plus de 800 pages :
Ce référentiel contient plus de 150 blocs-notes qui mettent en pratique les concepts, les algorithmes et les cas d'utilisation abordés dans le livre. Ils fournissent de nombreux exemples qui montrent :
Nous vous recommandons fortement de consulter les cahiers tout en lisant le livre ; ils sont généralement dans un état exécuté et contiennent souvent des informations supplémentaires non incluses en raison de contraintes d'espace.
En plus des informations contenues dans ce référentiel, le site Web du livre contient un résumé du chapitre et des informations supplémentaires.
Pour permettre aux lecteurs de poser facilement des questions sur le contenu du livre et les exemples de code, ainsi que sur le développement et la mise en œuvre de leurs propres stratégies et développements du secteur, nous hébergeons une plateforme en ligne.
Rejoignez notre communauté et connectez-vous avec d'autres traders intéressés à tirer parti du ML pour les stratégies de trading, partagez votre expérience et apprenez les uns des autres !
Avant tout, ce livre montre comment extraire des signaux d'un ensemble diversifié de sources de données et concevoir des stratégies de trading pour différentes classes d'actifs en utilisant un large éventail d'algorithmes d'apprentissage supervisé, non supervisé et par renforcement. Il fournit également des connaissances mathématiques et statistiques pertinentes pour faciliter le réglage d'un algorithme ou l'interprétation des résultats. En outre, il couvre le contexte financier qui vous aidera à travailler avec les données de marché et fondamentales, à extraire des fonctionnalités informatives et à gérer les performances d'une stratégie de trading.
D'un point de vue pratique, la 2e édition vise à vous doter de la compréhension conceptuelle et des outils nécessaires pour développer vos propres stratégies de trading basées sur le ML. À cette fin, il considère le ML comme un élément critique d'un processus plutôt que comme un exercice autonome, introduisant le ML de bout en bout pour le flux de travail de trading, depuis l'approvisionnement en données, l'ingénierie des fonctionnalités et l'optimisation du modèle jusqu'à la conception de la stratégie et le backtesting.
Plus précisément, le workflow ML4T commence par générer des idées pour un univers d'investissement bien défini, collecter des données pertinentes et extraire des fonctionnalités informatives. Cela implique également de concevoir, régler et évaluer des modèles ML adaptés à la tâche prédictive. Enfin, cela nécessite de développer des stratégies de trading pour agir sur les signaux prédictifs des modèles, ainsi que de simuler et d'évaluer leurs performances sur des données historiques à l'aide d'un moteur de backtesting. Une fois que vous décidez d’exécuter une stratégie algorithmique sur un marché réel, vous vous retrouverez à répéter ce flux de travail à plusieurs reprises pour intégrer de nouvelles informations et un environnement changeant.
L'accent mis par la deuxième édition sur le workflow ML4t se traduit par un nouveau chapitre sur le backtesting stratégique, une nouvelle annexe décrivant plus de 100 facteurs alpha différents et de nombreuses nouvelles applications pratiques. Nous avons également réécrit la plupart du contenu existant pour plus de clarté et de lisibilité.
Les applications de trading utilisent désormais une gamme plus large de sources de données au-delà des cours quotidiens des actions américaines, y compris les actions internationales et les ETF. Il montre également comment utiliser le ML pour une stratégie intrajournalière avec des données sur actions à la minute près. En outre, il étend la couverture des sources de données alternatives pour inclure les documents déposés auprès de la SEC pour l'analyse des sentiments et les prévisions de rendement, ainsi que les images satellite pour classer l'utilisation des terres.
Une autre innovation de la deuxième édition est de reproduire plusieurs applications de trading récemment publiées dans des revues de premier plan :
Toutes les applications utilisent désormais les dernières versions logicielles disponibles (au moment de la rédaction) telles que pandas 1.0 et TensorFlow 2.2. Il existe également une version personnalisée de Zipline qui facilite l'inclusion de prédictions de modèles d'apprentissage automatique lors de la conception d'une stratégie de trading.
Les exemples de code s'appuient sur un large éventail de bibliothèques Python issues des domaines de la science des données et de la finance.
Il n'est pas nécessaire d'essayer d'installer toutes les bibliothèques en même temps car cela augmente le risque de conflits de versions. Au lieu de cela, nous vous recommandons d'installer les bibliothèques requises pour un chapitre spécifique au fur et à mesure.
Mise à jour de mars 2022 :
zipline-reloaded
,pyfolio-reloaded
,alphalens-reloaded
etempyrical-reloaded
sont désormais disponibles sur le canalconda-forge
. Le canalml4t
ne contient que des versions obsolètes et sera bientôt supprimé.
Mise à jour avril 2021 : avec la mise à jour de Zipline, il n'est plus nécessaire d'utiliser Docker. Les instructions d'installation font désormais référence aux fichiers d'environnement spécifiques au système d'exploitation qui devraient simplifier votre exécution des ordinateurs portables.
Mise à jour de février 2021 : l'exemple de code version 2.0 met à jour les environnements conda fournis par l'image Docker vers Python 3.8, Pandas 1.2 et TensorFlow 1.2, entre autres ; l'environnement de backtesting Zipline utilise désormais Python 3.6.
conda
et installer les packages utilisés dans les notebooks directement sur votre machine si vous préférez (et, en fonction de votre système, êtes prêt à faire un effort supplémentaire).Si vous rencontrez des difficultés pour installer les environnements, télécharger les données ou exécuter le code, veuillez signaler un problème GitHub dans le dépôt (ici). Travailler avec les problèmes GitHub a été décrit ici.
Mise à jour : Vous pouvez télécharger les données algoseek utilisées dans le livre ici. Voir les instructions de prétraitement au chapitre 2 et un exemple intrajournalier avec un modèle d'amplification de gradient au chapitre 12.
Mise à jour : Le répertoire des figures contient les versions couleurs des grilles utilisées dans le livre.
Le livre comporte quatre parties qui abordent les différents défis qui se posent lors de l'approvisionnement et de l'utilisation de l'approvisionnement en données de marché, fondamentales et alternatives, du développement de solutions de ML pour diverses tâches prédictives dans le contexte du trading, et de la conception et de l'évaluation d'une stratégie de trading qui s'appuie sur des signaux prédictifs générés par un modèle ML.
Le répertoire de chaque chapitre contient un README avec des informations supplémentaires sur le contenu, des exemples de code et des ressources supplémentaires.
Partie 1 : Des données au développement de stratégies
Partie 2 : Apprentissage automatique pour le trading : principes fondamentaux
Partie 3 : Traitement du langage naturel pour le trading
Partie 4 : Apprentissage profond et par renforcement
La première partie fournit un cadre pour développer des stratégies de trading basées sur l'apprentissage automatique (ML). Il se concentre sur les données qui alimentent les algorithmes et les stratégies de ML abordés dans ce livre, explique comment concevoir et évaluer des fonctionnalités adaptées aux modèles de ML, et comment gérer et mesurer les performances d'un portefeuille tout en exécutant une stratégie de trading.
Ce chapitre explore les tendances du secteur qui ont conduit à l’émergence du ML comme source d’avantage concurrentiel dans le secteur de l’investissement. Nous examinerons également la place du ML dans le processus d'investissement pour permettre des stratégies de trading algorithmiques.
Plus spécifiquement, il couvre les thèmes suivants :
Ce chapitre montre comment travailler avec les données de marché et fondamentales et décrit les aspects critiques de l'environnement qu'elles reflètent. Par exemple, la connaissance des différents types d'ordres et de l'infrastructure de négociation est importante non seulement pour l'interprétation des données, mais également pour concevoir correctement des simulations de backtest. Nous illustrons également comment utiliser Python pour accéder et manipuler les données de négociation et des états financiers.
Des exemples pratiques montrent comment travailler avec les données de trading des données de ticks du NASDAQ et des barres de minutes d'Algoseek avec un riche ensemble d'attributs capturant la dynamique offre-demande que nous utiliserons plus tard pour une stratégie intrajournalière basée sur le ML. Nous couvrons également diverses API de fournisseurs de données et comment obtenir des informations sur les états financiers auprès de la SEC.
Ce chapitre couvre notamment :Ce chapitre présente les catégories et les cas d'utilisation de données alternatives, décrit les critères permettant d'évaluer le nombre croissant de sources et de fournisseurs et résume le paysage actuel du marché.
Il montre également comment créer des ensembles de données alternatifs en grattant des sites Web, tels que la collecte de transcriptions d'appels de revenus à utiliser avec des algorithmes de traitement du langage naturel (NLP) et d'analyse des sentiments dans la troisième partie du livre.
Plus spécifiquement, ce chapitre couvre :
Si vous êtes déjà familier avec le ML, vous savez que l’ingénierie des fonctionnalités est un ingrédient crucial pour des prédictions réussies. Cela est au moins tout aussi important dans le domaine du trading, où les chercheurs universitaires et industriels étudient depuis des décennies ce qui détermine les marchés et les prix des actifs, et quelles caractéristiques aident à expliquer ou à prédire les mouvements de prix.
Ce chapitre présente les principaux points à retenir de cette recherche comme point de départ pour votre propre quête des facteurs alpha. Il présente également des outils essentiels pour calculer et tester les facteurs alpha, soulignant comment les bibliothèques NumPy, pandas et TA-Lib facilitent la manipulation des données et présentent des techniques de lissage populaires telles que les ondelettes et le filtre de Kalman qui aident à réduire le bruit dans les données. Après l'avoir lu, vous connaîtrez :
Les facteurs alpha génèrent des signaux qu'une stratégie algorithmique se traduit par des transactions qui, à leur tour, produisent des positions longues et courtes. Les rendements et le risque du portefeuille résultant déterminent si la stratégie répond aux objectifs d'investissement.
Il existe plusieurs approches pour optimiser les portefeuilles. Il s'agit notamment de l'application de l'apprentissage automatique (ML) pour apprendre les relations hiérarchiques entre les actifs et les traiter comme des compléments ou des substituts lors de la conception du profil de risque du portefeuille. Ce chapitre couvre :
La deuxième partie couvre les algorithmes fondamentaux d'apprentissage supervisé et non supervisé et illustre leur application aux stratégies de trading. Il présente également la plateforme Quantopian qui vous permet d'exploiter et de combiner les données et les techniques de ML développées dans ce livre pour mettre en œuvre des stratégies algorithmiques qui exécutent des transactions sur des marchés réels.
Ce chapitre lance la partie 2 qui illustre comment vous pouvez utiliser une gamme de modèles de ML supervisés et non supervisés pour le trading. Nous expliquerons les hypothèses et les cas d'utilisation de chaque modèle avant de démontrer des applications pertinentes à l'aide de diverses bibliothèques Python.
Beaucoup de ces modèles et leurs applications ont plusieurs aspects communs. Ce chapitre couvre ces aspects communs afin que nous puissions nous concentrer sur l'utilisation spécifique au modèle dans les chapitres suivants. Il ouvre la voie en décrivant comment formuler, entraîner, régler et évaluer les performances prédictives des modèles ML en tant que flux de travail systématique. Le contenu comprend :
Les modèles linéaires sont des outils standards d’inférence et de prédiction dans des contextes de régression et de classification. De nombreux modèles d’évaluation des actifs largement utilisés reposent sur la régression linéaire. Les modèles régularisés comme la régression Ridge et Lasso donnent souvent de meilleures prédictions en limitant le risque de surajustement. Les applications de régression typiques identifient les facteurs de risque qui déterminent les rendements des actifs afin de gérer les risques ou de prédire les rendements. Les problèmes de classification, en revanche, incluent les prévisions directionnelles des prix.
Le chapitre 07 couvre les sujets suivants :
Ce chapitre présente une perspective de bout en bout sur la conception, la simulation et l'évaluation d'une stratégie de trading pilotée par un algorithme ML. Nous démontrerons en détail comment backtester une stratégie basée sur le ML dans un contexte de marché historique en utilisant les bibliothèques Python backtrader et Zipline. Le workflow ML4T vise en fin de compte à rassembler des preuves à partir de données historiques qui aident à décider s'il convient de déployer une stratégie candidate sur un marché réel et de mettre en danger les ressources financières. Une simulation réaliste de votre stratégie doit représenter fidèlement le fonctionnement des marchés de titres et la manière dont les transactions sont exécutées. En outre, plusieurs aspects méthodologiques nécessitent une attention particulière afin d’éviter des résultats biaisés et de fausses découvertes qui conduiraient à de mauvaises décisions d’investissement.
Plus précisément, après avoir parcouru ce chapitre, vous serez en mesure de :
Ce chapitre se concentre sur les modèles qui extraient les signaux de l'historique d'une série chronologique pour prédire les valeurs futures de la même série chronologique. Les modèles de séries chronologiques sont largement utilisés en raison de la dimension temporelle inhérente au trading. Il présente des outils pour diagnostiquer les caractéristiques des séries chronologiques telles que la stationnarité et extraire les caractéristiques qui capturent des modèles potentiellement utiles. Il introduit également des modèles de séries chronologiques univariées et multivariées pour prévoir les données macroéconomiques et les modèles de volatilité. Enfin, il explique comment la cointégration identifie les tendances communes à travers les séries temporelles et montre comment développer une stratégie de trading de paires basée sur ce concept crucial.
Il couvre notamment :
Les statistiques bayésiennes nous permettent de quantifier l'incertitude concernant les événements futurs et d'affiner les estimations de manière raisonnée à mesure que de nouvelles informations arrivent. Cette approche dynamique s’adapte bien à la nature évolutive des marchés financiers. Les approches bayésiennes du ML permettent de nouvelles informations sur l'incertitude entourant les métriques statistiques, les estimations de paramètres et les prédictions. Les applications vont de la gestion des risques plus granulaire aux mises à jour dynamiques de modèles prédictifs intégrant les changements de l'environnement du marché.
Plus spécifiquement, ce chapitre couvre :
Ce chapitre applique les arbres de décision et les forêts aléatoires au trading. Les arbres de décision apprennent des règles à partir de données qui codent des relations entrée-sortie non linéaires. Nous montrons comment entraîner un arbre de décision pour faire des prédictions sur les problèmes de régression et de classification, visualiser et interpréter les règles apprises par le modèle, et ajuster les hyperparamètres du modèle pour optimiser le compromis biais-variance et éviter le surajustement.
La deuxième partie du chapitre présente des modèles d'ensemble qui combinent plusieurs arbres de décision de manière aléatoire pour produire une seule prédiction avec une erreur plus faible. Il se termine par une stratégie long-short pour les actions japonaises basée sur des signaux de trading générés par un modèle forestier aléatoire.
En bref, ce chapitre couvre :
L'amélioration du gradient est un algorithme d'ensemble alternatif basé sur des arbres qui produit souvent de meilleurs résultats que les forêts aléatoires. La différence essentielle est que le boosting modifie les données utilisées pour entraîner chaque arbre en fonction des erreurs cumulées commises par le modèle. Alors que les forêts aléatoires entraînent de nombreux arbres indépendamment en utilisant des sous-ensembles aléatoires de données, l'augmentation se déroule de manière séquentielle et repondère les données. Ce chapitre montre comment les bibliothèques de pointe atteignent des performances impressionnantes et appliquent le boosting aux données quotidiennes et à haute fréquence pour tester une stratégie de trading intrajournalière.
Plus spécifiquement, nous aborderons les sujets suivants :
La réduction de dimensionnalité et le regroupement sont les tâches principales de l’apprentissage non supervisé :
Plus spécifiquement, ce chapitre couvre :
Les données textuelles sont riches en contenu, mais de format non structuré et nécessitent donc davantage de prétraitement afin qu'un algorithme d'apprentissage automatique puisse extraire le signal potentiel. Le défi crucial consiste à convertir le texte dans un format numérique destiné à être utilisé par un algorithme, tout en exprimant simultanément la sémantique ou la signification du contenu.
Les trois chapitres suivants couvrent plusieurs techniques qui capturent les nuances du langage facilement compréhensibles par les humains afin que les algorithmes d'apprentissage automatique puissent également les interpréter.
Les données textuelles sont très riches en contenu mais très non structurées, de sorte qu'elles nécessitent davantage de prétraitement pour permettre à un algorithme de ML d'extraire les informations pertinentes. Un défi majeur consiste à convertir le texte dans un format numérique sans perdre son sens. Ce chapitre montre comment représenter les documents en tant que vecteurs de nombre de jetons en créant une matrice document-terme qui, à son tour, sert d'entrée pour la classification du texte et l'analyse des sentiments. Il présente également l'algorithme Naive Bayes et compare ses performances aux modèles linéaires et arborescents.
En particulier, ce chapitre couvre :
Ce chapitre utilise l'apprentissage non supervisé pour modéliser des sujets latents et extraire des thèmes cachés des documents. Ces thèmes peuvent générer des informations détaillées sur un vaste corpus de rapports financiers. Les modèles thématiques automatisent la création de fonctionnalités de texte sophistiquées et interprétables qui, à leur tour, peuvent aider à extraire des signaux de trading à partir de vastes collections de textes. Ils accélèrent l'examen des documents, permettent le regroupement de documents similaires et produisent des annotations utiles pour la modélisation prédictive. Les applications incluent l'identification de thèmes critiques dans les informations fournies par l'entreprise, les transcriptions d'appels de résultats ou les contrats, ainsi que les annotations basées sur l'analyse des sentiments ou sur l'utilisation des rendements d'actifs associés.
Plus précisément, il couvre :
Ce chapitre utilise des réseaux de neurones pour apprendre une représentation vectorielle d'unités sémantiques individuelles comme un mot ou un paragraphe. Ces vecteurs sont denses avec quelques centaines d'entrées à valeur réelle, par rapport aux vecteurs clairsemés de dimension supérieure du modèle du sac de mots. En conséquence, ces vecteurs intègrent ou localisent chaque unité sémantique dans un espace vectoriel continu.
Les intégrations résultent de la formation d'un modèle pour relier les jetons à leur contexte avec l'avantage qu'une utilisation similaire implique un vecteur similaire. En conséquence, ils codent des aspects sémantiques tels que les relations entre les mots grâce à leur emplacement relatif. Ce sont des fonctionnalités puissantes que nous utiliserons avec des modèles d’apprentissage profond dans les chapitres suivants.
Plus précisément, dans ce chapitre, nous aborderons :
La quatrième partie explique et démontre comment tirer parti du deep learning pour le trading algorithmique. Les puissantes capacités des algorithmes d’apprentissage profond pour identifier des modèles dans les données non structurées les rendent particulièrement adaptés aux données alternatives telles que les images et le texte.
Les exemples d'applications montrent, par exemple, comment combiner des données textuelles et des données de prix pour prédire les bénéfices surprises des dépôts auprès de la SEC, générer des séries chronologiques synthétiques pour augmenter la quantité de données de formation et former un agent commercial à l'aide d'un apprentissage par renforcement profond. Plusieurs de ces applications reproduisent des recherches récemment publiées dans des revues de premier plan.
Ce chapitre présente les réseaux de neurones à action directe (NN) et montre comment entraîner efficacement de grands modèles en utilisant la rétropropagation tout en gérant les risques de surajustement. Il montre également comment utiliser TensorFlow 2.0 et PyTorch et comment optimiser une architecture NN pour générer des signaux de trading. Dans les chapitres suivants, nous nous appuierons sur cette base pour appliquer diverses architectures à différentes applications d'investissement en mettant l'accent sur les données alternatives. Il s'agit notamment des NN récurrents adaptés aux données séquentielles telles que les séries chronologiques ou le langage naturel et des NN convolutifs, particulièrement bien adaptés aux données d'image. Nous aborderons également l'apprentissage approfondi non supervisé, par exemple comment créer des données synthétiques à l'aide de réseaux contradictoires génératifs (GAN). De plus, nous discuterons de l’apprentissage par renforcement pour former des agents qui apprennent de manière interactive de leur environnement.
En particulier, ce chapitre couvrira
Les architectures CNN continuent d'évoluer. Ce chapitre décrit les éléments de base communs aux applications réussies, montre comment l'apprentissage par transfert peut accélérer l'apprentissage et comment utiliser les CNN pour la détection d'objets. Les CNN peuvent générer des signaux de trading à partir d'images ou de données de séries chronologiques. Les données satellitaires peuvent anticiper les tendances des matières premières via des images aériennes des zones agricoles, des mines ou des réseaux de transport. Les images des caméras peuvent aider à prédire l’activité des consommateurs ; nous montrons comment construire un CNN qui classe l'activité économique dans des images satellite. Les CNN peuvent également fournir des résultats de classification de séries chronologiques de haute qualité en exploitant leur similarité structurelle avec les images, et nous concevons une stratégie basée sur des données de séries chronologiques formatées comme des images.
Plus spécifiquement, ce chapitre couvre :
Les réseaux de neurones récurrents (RNN) calculent chaque sortie en fonction de la sortie précédente et de nouvelles données, créant efficacement un modèle avec une mémoire qui partage les paramètres à travers un graphique de calcul plus profond. Les architectures importantes comprennent une longue mémoire à court terme (LSTM) et des unités récurrentes fermées (GRU) qui relèvent des défis de l'apprentissage des dépendances à longue portée. Les RNN sont conçus pour cartographier une ou plusieurs séquences d'entrée à une ou plusieurs séquences de sortie et sont particulièrement bien adaptés au langage naturel. Ils peuvent également être appliqués à des séries chronologiques univariées et multivariées pour prédire les données du marché ou fondamentales. Ce chapitre couvre la façon dont RNN peut modéliser des données de texte alternatives en utilisant le mot incorporation que nous avons couvert dans le chapitre 16 pour classer le sentiment exprimé dans les documents.
Plus précisément, ce chapitre aborde:
Ce chapitre montre comment tirer parti de l'apprentissage en profondeur non supervisé pour le trading. Nous discutons également des autoencoders, à savoir un réseau neuronal formé pour reproduire l'entrée tout en apprenant une nouvelle représentation codée par les paramètres d'une couche cachée. Les autoencodeurs sont utilisés depuis longtemps pour la réduction de la dimensionnalité non linéaire, en tirant parti des architectures NN que nous avons couvertes dans les trois derniers chapitres. Nous reproduisons un article AQR récent qui montre comment les autoencoders peuvent sous-tendre une stratégie de trading. Nous utiliserons un réseau neuronal profond qui s'appuie sur un autoencodeur pour extraire les facteurs de risque et prédire les rendements des actions, conditionnés sur une gamme d'attributs d'actions.
Plus précisément, dans ce chapitre, vous apprendrez:
Ce chapitre présente des réseaux adversaires génératifs (GAN). GANS entraîne un générateur et un réseau de discriminateur dans un cadre concurrentiel afin que le générateur apprenne à produire des échantillons que le discriminateur ne peut pas distinguer d'une classe donnée de données de formation. L'objectif est de produire un modèle génératif capable de produire des échantillons synthétiques représentatifs de cette classe. Bien que les plus populaires auprès des données d'image, les GAN ont également été utilisés pour générer des données de séries chronologiques synthétiques dans le domaine médical. Des expériences ultérieures avec des données financières ont exploré si les GAN peuvent produire des trajectoires de prix alternatives utiles pour la formation ML ou les backtests de stratégie. Nous reproduisons le papier Gan de la série temporelle des Neirips 2019 pour illustrer l'approche et démontrer les résultats.
Plus précisément, dans ce chapitre, vous apprendrez:
Modèles d'apprentissage par renforcement (RL) L'apprentissage dirigé par un objectif par un agent qui interagit avec un environnement stochastique. RL optimise les décisions de l'agent concernant un objectif à long terme en apprenant la valeur des états et des actions à partir d'un signal de récompense. L'objectif ultime est de dériver une politique qui encode les règles comportementales et mappe les États aux actions. Ce chapitre montre comment formuler et résoudre un problème RL. Il couvre des méthodes basées sur un modèle et sans modèle, introduit l'environnement Openai Gym et combine l'apprentissage en profondeur avec RL pour former un agent qui navigue dans un environnement complexe. Enfin, nous vous montrerons comment adapter RL au trading algorithmique en modélisant un agent qui interagit avec le marché financier tout en essayant d'optimiser une fonction objectif.
Plus précisément, ce chapitre couvrira:
Dans ce chapitre de conclusion, nous résumerons brièvement les outils, les applications et les leçons essentiels dans tout le livre pour éviter de perdre de vue la vue d'ensemble après tant de détails. Nous identifierons ensuite des domaines que nous ne couvrions pas, mais que nous mériterons de nous concentrer lorsque vous développez les nombreuses techniques d'apprentissage automatique que nous avons introduites et que nous devenons productives dans leur utilisation quotidienne.
En somme, dans ce chapitre, nous
Tout au long de ce livre, nous avons souligné comment la conception intelligente des fonctionnalités, y compris le prétraitement approprié et le débroussage, conduit généralement à une stratégie efficace. Cette annexe synthétise certaines des leçons apprises sur l'ingénierie des fonctionnalités et fournit des informations supplémentaires sur ce sujet vital.
À cette fin, nous nous concentrons sur le large éventail d'indicateurs mis en œuvre par Ta-Lib (voir chapitre 4) et le papier alphas de formule de WorldQuant (Kakushadze 2016), qui présente des facteurs de négociation quantitatifs réels utilisés dans la production avec une période de détention moyenne de la période de détention moyenne de la période de détention moyenne de la période de détention moyenne de 0,6-6,4 jours.
Ce chapitre couvre: