Téléchargement Lihang - Téléchargement du code source Lihang

Lihang

Python

1.0.0

Télécharger

méthodes d'apprentissage statistique

La deuxième édition de ce livre a été publiée. Toutes les mises à jour de contenu après mai 2019 se réfèrent à la première impression de la deuxième édition.

Pour le contenu de la première édition, voir Release first_edition

[TOC]

trousse à outils

Pour faciliter l'apprentissage, quelques descriptions d'outils sont compilées.

La prise en charge des formules de démarque de GitHub est moyenne. Il est recommandé d'utiliser le plug-in Chrome TeX All the Things pour afficher les formules TeX. L'éditeur Markdown local recommande Typora. Faites attention à Ctrl+, ouvrez les Préférences et vérifiez les mathématiques en ligne dans la section Prise en charge de la syntaxe. . Ubuntu et Windows fonctionnent bien.
math_markdown.pdf est la version exportée de math_markdown.md, qui est pratique à visualiser et à utiliser. La version markdown est la dernière version, qui couvre essentiellement l'expression $LaTeX$ des formules mathématiques utilisées dans le livre.
ref_downloader est un script de téléchargement de référence. Ce livre doit être lu conjointement avec les références. Vous devez lire les grandes références dans chaque chapitre. Cela sera très utile pour comprendre le contenu du livre.
glossary_index est un index terminologique informel. Il y en a un à la fin de ce livre, mais il n'est pas pratique de le développer. Du contenu étendu a été ajouté à cette partie.
symbol_index est un index informel de symboles. Il y a des descriptions de symboles dans la première version, mais pas dans la deuxième version. Il se peut qu'il y ait vraiment trop de symboles impliqués dans la partie non supervisée. Bref, cette partie est conservée en cas de confusion. . Vous pouvez le vérifier parfois et voir si cela aide.
errata_se Errata non officiel, pour référence. Si vous n'êtes pas clair sur un contenu, vous pouvez vous y référer et espérer que cela vous aidera.

Préface

En mai 2019, la deuxième édition tant attendue est sortie. J'ai immédiatement passé commande et elle devrait être expédiée le jour de la fête des mères.
J'ai reçu le nouveau livre le 13 mai, et la deuxième édition a une nouvelle photo, avec les cheveux courts, et j'ai l'air plus jeune qu'avant...
La deuxième édition a révisé les signes de ponctuation. Dans la première édition, les virgules étaient en chinois et les points en anglais. La deuxième édition a transformé la période anglaise précédente en période chinoise.
La table des symboles a été supprimée dans la deuxième édition, peut-être parce que des symboles différents ont été utilisés à certains endroits avant et après le même livre ? Donc, dans ce référentiel, nous essayons d'ajouter une table de symboles pour explication afin de faciliter l'interrogation.
La deuxième édition ajoute huit méthodes d'apprentissage non supervisées. À ce stade, à l'exception d'Apriori, les dix principaux algorithmes d'exploration de données sont complets.

Si vous devez référencer ce Repo :

Format : SmirkCao, Lihang, (2018), GitHub repository, https://github.com/SmirkCao/Lihang

ou

 @misc{SmirkCao,
  author = {SmirkCao},
  title = {Lihang},
  year = {2018},
  publisher = {GitHub},
  journal = {GitHub repository},
  howpublished = {url{https://github.com/SmirkCao/Lihang}},
  commit = {c5624a9bd757a5cc88e78b85b89e9221deb08270}
}

Préface

Cette partie du contenu ne correspond pas à la préface de « Méthodes d'apprentissage statistique ». La préface du livre est également bien écrite et est citée comme suit :

En termes de sélection de contenu, nous nous concentrons sur l'introduction des méthodes les plus importantes et les plus couramment utilisées, en particulier les méthodes liées aux problèmes de classification et d'étiquetage .
Essayez d'utiliser un cadre unifié pour discuter de toutes les méthodes afin que l'ensemble du livre ne perde pas son caractère systématique.
Applicable aux étudiants universitaires et aux étudiants diplômés se spécialisant en recherche d'informations et en traitement du langage naturel.

Une autre chose à noter est le parcours professionnel de l’auteur.

L'auteur a participé à des recherches sur divers traitements intelligents de données textuelles à l'aide de méthodes d'apprentissage statistique, notamment le traitement du langage naturel, la récupération d'informations et l'exploration de données textuelles.

Chacun a sa propre façon de comprendre, et ils auront des compréhensions différentes du même contenu.
Les livres sont comme les données, l’apprentissage est comme la formation et les gens sont des modèles.

Si vous utilisez mon modèle pour mettre en œuvre la recherche de similarité, le livre qui est similaire au livre de M. Li est "Semiconductor Optoelectronic Devices". C'est dommage que je ne l'ai pas étudié à plusieurs reprises quand j'étais jeune.

J'espère qu'au fil des lectures répétées, le livre entier deviendra de plus en plus épais. Tous les documents et codes de cette série, sauf indication contraire, font référence aux « Méthodes d'apprentissage statistique » de Li Hang. Le contenu d'autres références sera lié s'il est cité.

Certaines références sont répertoriées dans les références, dont certaines sont très utiles pour comprendre le contenu du livre. Les descriptions et explications de ces fichiers seront ajoutées dans Refs/README.md correspondant à la section de référence. Quelques notes sur d'autres références ont également été ajoutées à ce document.

Pour faciliter le téléchargement des références, ref_downloader.sh a été ajouté lors de review02, qui peut être utilisé pour télécharger les références répertoriées dans le livre. Le processus de mise à jour se termine progressivement au fur et à mesure de la progression de review02.

De plus, ce livre du professeur Li Hang, ~~C'est vraiment fin (la deuxième version n'est plus fine)~~ , mais presque chaque phrase fait ressortir de nombreux points et mérite d'être lue encore et encore.

Il y a une table des symboles après la table des matières dans le livre, qui explique les définitions des symboles, donc s'il y a des symboles que vous ne comprenez pas, vous pouvez les rechercher dans le tableau, il y a un index à la fin du livre ; et vous pouvez utiliser l'index pour trouver la signification du symbole correspondant qui apparaît dans le livre Emplacement. Dans ce Repo, un glossary_index.md est maintenu pour ajouter quelques explications aux symboles correspondants et marquer directement les numéros de page correspondant aux symboles. La progression sera mise à jour avec la révision.

Après chaque algorithme ou exemple, il y aura un ◼️, indiquant que l'algorithme ou l'exemple se termine ici. C'est ce qu'on appelle le symbole de fin de preuve. Vous le saurez si vous lisez davantage de littérature.

À propos de la base des logarithmes

Lors de la lecture, nous nous posons souvent des questions sur la base des logarithmes. Certaines des plus importantes sont soulignées dans le livre. Certains qui ne sont pas soulignés peuvent être compris à travers le contexte. De plus, comme il existe une formule pour changer la base, peu importe la nature de la base. La différence réside dans un coefficient constant. Cependant, le choix de différentes bases aura des significations physiques et des considérations de résolution de problèmes. Pour analyser ce problème, vous pouvez consulter la discussion sur l'entropie dans PRML 1.6 pour comprendre.

De plus, en ce qui concerne la question des coefficients constants dans la formule, si une solution itérative est utilisée et que parfois la formule est simplifiée dans une certaine mesure, la vitesse de convergence peut être améliorée. Les détails peuvent être progressivement compris dans la pratique.

À propos de la longueur

Proportion de longueur de chaque chapitre

Insérez un graphique ici pour répertorier l'espace occupé par chaque chapitre. Parmi eux, SVM occupe le plus grand espace parmi l'apprentissage supervisé, MCMC occupe le plus grand espace parmi l'apprentissage non supervisé, et DT, HMM, CRF, SVD, PCA, LDA et Le PageRank occupe également le plus grand espace relativement grand.

Les chapitres sont liés les uns aux autres, comme NB et LR, DT et AdaBoost, Perceptron et SVM, HMM et CRF, etc. Si vous rencontrez des difficultés dans un chapitre volumineux, vous pouvez revoir le contenu des chapitres précédents ou vérifier les références de chapitres spécifiques sont généralement donnés qui décrivent le problème plus en détail et peuvent expliquer où vous êtes bloqué.

CH01 Introduction à l’apprentissage statistique et à l’apprentissage supervisé

Introduction

Trois éléments des méthodes d'apprentissage statistique :

Modèle
Stratégie
algorithme
La deuxième édition a réorganisé la structure des répertoires de ce chapitre pour la rendre plus claire.

Perceptron CH02

Perceptron

Le perceptron est un modèle de classification linéaire pour la classification en deux catégories.
Le perceptron correspond à l'hyperplan de séparation dans l'espace des fonctionnalités qui divise les instances en catégories positives et négatives.

CH03 k méthode du plus proche voisin

kNN

kNN est une méthode de classification et de régression de base
La sélection de la valeur k, la mesure de la distance et les règles de décision de classification sont les trois éléments de base du kNN.

CH04 Méthode Bayes naïve

N.-B.

La méthode Naive Bayes est une méthode de classification basée sur le théorème de Bayes et l'hypothèse d'indépendance des conditions des caractéristiques.

$IIDflèche droite$ Distribution de probabilité conjointe des entrées et des sorties
$Bayesflèche droite$ La sortie avec la plus grande probabilité a posteriori

Si une certaine combinaison de x n'apparaît pas a priori, la probabilité sera 0, correspondant à la solution de lissage. $$P_lambda(X^{(j)}=a_{jl}|Y=c_k)=frac{sum_{i=1}^{N}{I(x_i^{(j)}=a_ {jl}, y_i=c_k)}+lambda}{sum_{i=1}^{N}{I(y_i=c_k)+S_jlambda}}$$
- $lambda = 0$ Correspond à l’estimation du maximum de vraisemblance
- $lambda = 1$ Correspond au lissage laplacien
La méthode Naive Bayes apprend en fait le mécanisme de génération de données, il s'agit donc d'un modèle génératif.

CH05 Arbre de décision

DT

L'arbre de décision est une méthode de classification et de régression de base

CH06 Régression logistique et modèle d'entropie maximale

LR

La régression logistique est une méthode de classification classique en statistique
L'entropie maximale est un critère d'apprentissage des modèles probabilistes. Elle peut être étendue aux problèmes de classification pour obtenir le modèle d'entropie maximale.

Concernant l'étude de l'entropie maximale, il est recommandé de lire la littérature de référence [1] dans ce chapitre, Berger, 1996, qui est utile pour comprendre les exemples du livre et appréhender le principe de l'entropie maximale.

Alors pourquoi LR et Maxent sont-ils placés dans un seul chapitre ?

Tous appartiennent au modèle linéaire logarithmique
Les deux peuvent être utilisés pour la classification binaire et la multi-classification
Les méthodes d'apprentissage des deux modèles utilisent généralement l'estimation du maximum de vraisemblance, ou l'estimation du maximum de vraisemblance régularisée. Elle peut être formalisée comme un problème d'optimisation sans contrainte, et les méthodes de solution incluent IIS, GD, BFGS, etc.
Il est décrit comme suit dans Régression logistique,
La régression logistique, malgré son nom, est un modèle linéaire de classification plutôt que de régression. La régression logistique est également connue dans la littérature sous le nom de régression logit, classification à entropie maximale (MaxEnt) ou classificateur log-linéaire. Dans ce modèle, les probabilités décrivent. les résultats possibles d'un seul essai sont modélisés à l'aide d'une fonction logistique.
Il y a aussi une telle description
La régression logistique est un cas particulier d'entropie maximale avec deux étiquettes +1 et −1.
La dérivation dans ce chapitre utilise la propriété de $yin mathcal{Y}={0,1}$
Parfois on dit que la régression logistique s'appelle Maxent en PNL

Machine à vecteurs de support CH07

SVM

La machine à vecteurs de support est un modèle de classification binaire.
Le modèle de base est un classificateur linéaire défini pour maximiser l'intervalle sur l'espace des fonctionnalités. L'intervalle maximum le rend différent du perceptron.
Ce chapitre prend beaucoup de place, car l'idée de marge peut presque relier l'ensemble du problème de classification.

CH08 Méthode de mise à niveau

Booster

La méthode boosting est une méthode d’apprentissage statistique couramment utilisée, largement utilisée et efficace.

----Ligne de séparation----

Décomposons-le ici, car HMM et CRF conduisent généralement à l'introduction de modèles graphiques probabilistes. Dans "Machine Learning, Zhou Zhihua", un chapitre distinct sur le modèle graphique probabiliste est utilisé pour inclure HMM, MRF, CRF et d'autres contenus. De plus, il existe de nombreux points liés entre HMM et CRF lui-même.

Dans le premier chapitre du livre, trois applications de l'apprentissage supervisé sont expliquées : la classification, l'étiquetage et la régression. Il y a des suppléments au chapitre 12. Ce livre considère principalement les méthodes d'apprentissage des deux premiers. En conséquence, la segmentation est également appropriée ici. Le modèle de classification est introduit plus tôt et la régression est mentionnée dans une petite partie. Le problème de l'étiquetage est principalement introduit plus tard.

Algorithme CH09 EM et sa promotion

EM

L'algorithme EM est un algorithme itératif utilisé pour l'estimation du maximum de vraisemblance des paramètres du modèle probabiliste contenant des variables cachées, ou pour l'estimation de la probabilité postérieure maximale. (L'estimation du maximum de vraisemblance et l'estimation du maximum de probabilité postérieure sont ici des stratégies d'apprentissage )
Si les variables du modèle probabiliste sont toutes des variables observées, alors étant donné les données, les paramètres du modèle peuvent être estimés directement à l'aide de la méthode d'estimation du maximum de vraisemblance ou de la méthode d'estimation bayésienne.
Notez que si vous ne comprenez pas cette description dans le livre, veuillez vous référer à la partie estimation des paramètres de la méthode Naive Bayes dans CH04.
Cette partie du code implémente BMM et GMM, cela vaut la peine d'y jeter un oeil
Concernant EM, peu de choses ont été écrites sur ce chapitre. EM et Hinton sont étroitement liés. Ils ont publié le deuxième article de Capsule Network "Matrix Capsules with EM Routing" à l'ICLR en 2018.
Dans CH22, l'algorithme EM est classé comme méthode d'apprentissage automatique de base et n'implique pas de modèles d'apprentissage automatique spécifiques. Il peut être utilisé pour l'apprentissage non supervisé, l'apprentissage supervisé et l'apprentissage semi-supervisé.

Modèle de Markov caché CH10

HMM

Le modèle de Markov caché est un modèle d'apprentissage statistique qui peut être utilisé pour étiqueter des problèmes. Il décrit le processus de génération aléatoire de séquences d'observation à partir de chaînes de Markov cachées et constitue un modèle génératif.
Le modèle de Markov caché est un modèle probabiliste sur les séries chronologiques. Il décrit le processus de génération aléatoire d'une séquence d'états inobservables à partir d'une chaîne de Markov cachée, puis de génération abrégée d'une observation à partir de chaque état pour générer une séquence d'observation.
Il peut être utilisé pour marquer des problèmes et le statut correspond à la balise.
Trois problèmes fondamentaux : problème de calcul de probabilité, problème d'apprentissage et problème de prédiction.

Champ aléatoire conditionnel CH11

FRC

Le champ aléatoire conditionnel est un modèle de distribution de probabilité conditionnelle d'un autre ensemble de variables aléatoires de sortie étant donné un ensemble de variables aléatoires d'entrée. Sa caractéristique est qu'il est supposé que les variables aléatoires de sortie constituent un champ aléatoire de Markov .
Le modèle probabiliste de graphe non orienté, également connu sous le nom de champ aléatoire de Markov, est une distribution de probabilité conjointe qui peut être représentée par un graphe non orienté.
Trois problèmes fondamentaux : problème de calcul de probabilité, problème d'apprentissage, problème de prédiction

CH12 Résumé des méthodes d’apprentissage supervisé

Résumé

Ce chapitre ne comporte que quelques pages. Vous pouvez envisager la routine de lecture suivante :

Lisez-le avec le chapitre 1
Si vous rencontrez des questions peu claires dans des études précédentes, relisez ce chapitre.
Lisez ce chapitre attentivement et développez ce chapitre en dix autres chapitres.
Notez qu'il y a la figure 12.2 dans ce chapitre, qui mentionne que la fonction de perte logistique $y$ doit être définie ici dans $cal{Y}={+1,-1}$. LR a été introduit plus tôt lorsque $y$ est. défini à $cal{Y}={0,1}$, veuillez faire attention ici.

Le livre du Maître Li vous fait vraiment gagner quelque chose de nouveau à chaque fois que vous le lisez.

----Ligne de séparation----

La deuxième édition ajoute huit méthodes d'apprentissage non supervisées : clustering, décomposition en valeurs singulières, analyse en composantes principales, analyse sémantique latente, analyse sémantique latente probabiliste, méthode de Monte Carlo par chaîne de Markov, allocation de Dirichlet latente et PageRank.

CH13 Introduction à l'apprentissage non supervisé

Introduction

Problèmes fondamentaux de l'apprentissage non supervisé : clustering, réduction de dimensionnalité, analyse de sujets et analyse de graphiques.
La question de la structure horizontale et de la structure verticale est abordée sous l’angle du stockage.
Faites attention aux stratégies pour différentes tâches : minimiser la distance entre les centres de catégories, minimiser la perte d'informations lors de la conversion des dimensions et maximiser la probabilité de générer des données.
Dans la partie apprentissage non supervisé, la structure des données est souvent mentionnée, ce qui fait référence à la relation entre les variables des données.

Méthode de regroupement CH14

Regroupement

L'exemple 14.2 est très bon. Il est recommandé de le dessiner et d'y réfléchir soi-même avant de le regarder plus tard.
Le clustering peut être utilisé pour la compression d'images

Décomposition en valeur singulière CH15

Méthodes de base d'apprentissage automatique
Le théorème de décomposition en valeurs singulières garantit que la décomposition existe
La matrice des valeurs singulières est unique, $U, V$ ne sont pas uniques
Avoir une interprétation géométrique claire

Analyse en composantes principales CH16

La transformation orthogonale est utilisée pour convertir les données d'observation représentées par des variables linéairement liées en quelques données représentées par des variables linéairement indépendantes. Les variables linéairement indépendantes sont appelées composantes principales.
Avant l'analyse en composantes principales, les données données doivent être normalisées afin que chaque variable ait une moyenne de 0 et une variance de 1.
La composante principale ne correspond pas à une certaine caractéristique des données d'origine. La relation entre la composante principale et la caractéristique d'origine peut être observée grâce aux chargements factoriels.
Cette partie du contenu n'a pas encore mentionné le concept de sujet . Les chapitres suivants commencent à introduire de nombreux contenus liés à l'analyse de sujets. LSA, PLSA et LDA sont tous liés aux sujets. MCMC est un outil utilisé dans LDA.
La composante principale de la population et la composante principale de l'échantillon sont mentionnées, la première constituant la base de la seconde. Cela se reflète principalement dans la prise en compte globale des attentes et dans la prise en compte de la moyenne par échantillon. Les composantes principales de l’échantillon ont les mêmes propriétés que les composantes principales de la population.

CH17 Analyse sémantique latente

Dans la définition de sklearn, LSA est une décomposition en valeurs singulières tronquées.
Faites attention à comprendre la différence entre LSA et PCA, principalement s'il faut supprimer la moyenne.
En LSA, l'espace vectoriel du sujet est $U$ et la représentation de DOC dans l'espace vectoriel du sujet est $SV^mathrm{T}$. Mais en théorie, xtransformed vaut $UmitSigma$

CH18 Analyse Sémantique Latente Probabiliste

CH19 Méthode de Monte Carlo par chaîne de Markov

Allocation potentielle de Dirichlet CH20

Algorithme de PageRank CH21

CH22 Synthèse des méthodes d'apprentissage non supervisé

post-scriptum

Chaque chapitre de ce livre n'est pas complètement indépendant. Cette partie espère organiser les connexions entre les chapitres et les ensembles de données applicables. La mesure dans laquelle l’algorithme est mis en œuvre et les ensembles de données sur lesquels il peut s’exécuter constituent également un aspect.

data_algo_map