Lihang -Download - Lihang Quellcode-Download

Lihang

Python

1.0.0

Herunterladen

statistische Lernmethoden

Die zweite Auflage dieses Buches ist erschienen. Alle Inhaltsaktualisierungen nach Mai 2019 beziehen sich auf den Erstdruck der zweiten Auflage.

Den Inhalt der Erstausgabe finden Sie unter Release first_edition

[Inhaltsverzeichnis]

Werkzeugsatz

Um das Lernen zu erleichtern, sind einige Werkzeugbeschreibungen zusammengestellt.

Die Markdown-Formelunterstützung von GitHub ist durchschnittlich. Es wird empfohlen, das Chrome-Plugin TeX All the Things zum Rendern von TeX-Formeln zu verwenden. Achten Sie auf Strg+, öffnen Sie die Einstellungen und überprüfen Sie die Inline-Mathematik im Abschnitt „Syntaxunterstützung“. . Sowohl Ubuntu als auch Windows sind in Ordnung.
math_markdown.pdf ist die exportierte Version von math_markdown.md, die bequem angezeigt und verwendet werden kann. Die Markdown-Version ist die neueste Version, die im Wesentlichen den im Buch verwendeten $LaTeX$-Ausdruck abdeckt.
ref_downloader ist ein Referenz-Download-Skript. Sie müssen die umfangreichen Referenzen in jedem Kapitel lesen.
glossary_index ist ein informeller Terminologieindex. Es gibt einen am Ende dieses Buches, der jedoch nicht bequem erweitert werden kann.
symbol_index ist ein informeller Symbolindex. In der ersten Version gibt es Symbolbeschreibungen, in der zweiten Version jedoch möglicherweise nicht. Kurz gesagt, dieser Teil wird beibehalten, um Verwirrung zu vermeiden. Sie können es manchmal ausprobieren und sehen, ob es hilft.
errata_se Inoffizielle Errata, als Referenz. Wenn Ihnen ein Inhalt unklar ist, können Sie darauf verweisen und hoffen, dass er Ihnen weiterhilft.

Vorwort

Im Mai 2019 erschien die lang erwartete zweite Auflage, die ich sofort bestellt habe und die voraussichtlich am Muttertag verschickt wird.
Ich habe das neue Buch am 13. Mai bekommen und die zweite Auflage hat ein neues Foto, mit kurzen Haaren, und ich sehe jünger aus als zuvor ...
Die zweite Ausgabe enthält überarbeitete Satzzeichen. In der ersten Ausgabe waren Kommas auf Chinesisch und Punkte auf Englisch. Die zweite Ausgabe wandelte die vorherige englische Periode in eine chinesische Periode um.
Die Symboltabelle wurde in der zweiten Auflage gestrichen, vielleicht weil vor und nach demselben Buch an manchen Stellen unterschiedliche Symbole verwendet wurden? Daher versuchen wir in diesem Repo, eine Symboltabelle zur Erläuterung hinzuzufügen, um die Abfrage zu erleichtern.
Die zweite Ausgabe fügt acht unbeaufsichtigte Lernmethoden hinzu. Mit Ausnahme von Apriori sind die zehn besten Data-Mining-Algorithmen vollständig.

Wenn Sie auf dieses Repo verweisen müssen:

Format: SmirkCao, Lihang, (2018), GitHub repository, https://github.com/SmirkCao/Lihang

oder

 @misc{SmirkCao,
  author = {SmirkCao},
  title = {Lihang},
  year = {2018},
  publisher = {GitHub},
  journal = {GitHub repository},
  howpublished = {url{https://github.com/SmirkCao/Lihang}},
  commit = {c5624a9bd757a5cc88e78b85b89e9221deb08270}
}

Vorwort

Dieser Teil des Inhalts entspricht nicht dem Vorwort in „Statistische Lernmethoden“. Das Vorwort im Buch ist ebenfalls gut geschrieben und wird wie folgt zitiert:

Bei der Inhaltsauswahl konzentrieren wir uns auf die Einführung der wichtigsten und am häufigsten verwendeten Methoden, insbesondere Methoden im Zusammenhang mit Klassifizierungs- und Kennzeichnungsproblemen .
Versuchen Sie, alle Methoden in einem einheitlichen Rahmen zu diskutieren, damit das gesamte Buch nicht seine Systematik verliert.
Gilt für Studenten und Doktoranden mit den Schwerpunkten Informationsbeschaffung und Verarbeitung natürlicher Sprache.

Zu beachten ist auch der berufliche Hintergrund des Autors.

Der Autor hat sich mit der Erforschung verschiedener intelligenter Verarbeitungen von Textdaten unter Verwendung statistischer Lernmethoden beschäftigt, einschließlich der Verarbeitung natürlicher Sprache, des Informationsabrufs und des Text Data Mining.

Jeder hat seine eigene Art zu verstehen und wird den gleichen Inhalt unterschiedlich verstehen.
Bücher sind wie Daten, Lernen ist wie Training und Menschen sind Vorbilder.

Wenn Sie mein Modell verwenden, um die Ähnlichkeitssuche zu implementieren, ist das Buch, das dem Buch von Herrn Li ähnelt, „Semiconductor Optoelectronic Devices“. Schade, dass ich es in meiner Jugend nicht wiederholt gelesen habe.

Ich hoffe, dass das gesamte Buch beim wiederholten Lesen immer dicker und dünner wird. Alle Dokumente und Codes in dieser Reihe beziehen sich, sofern nicht anders angegeben, auf „Statistische Lernmethoden“ von Lehrer Li Hang. Inhalte in anderen Referenzen werden bei Zitierung verlinkt.

Einige Referenzen sind in Refs aufgeführt, von denen einige sehr hilfreich für das Verständnis des Buchinhalts sind. Beschreibungen und Erläuterungen dieser Dateien werden in Refs/README.md entsprechend dem Referenzabschnitt hinzugefügt. Einige Hinweise zu anderen Referenzen wurden diesem Dokument ebenfalls hinzugefügt.

Um das Herunterladen von Referenzen zu erleichtern, wurde während review02 ref_downloader.sh hinzugefügt, mit dem die im Buch aufgeführten Referenzen heruntergeladen werden können. Der Aktualisierungsprozess wird im Verlauf von review02 schrittweise abgeschlossen.

Darüber hinaus ist dieses Buch von Lehrer Li Hang, ~~Es ist wirklich dünn (die zweite Version ist nicht mehr dünn)~~ , aber fast jeder Satz bringt viele Punkte zum Vorschein und ist es wert, immer wieder gelesen zu werden.

Nach dem Inhaltsverzeichnis im Buch befindet sich eine Symboltabelle, in der die Symboldefinitionen erläutert werden. Wenn Sie also Symbole nicht verstehen, können Sie diese in der Tabelle nachschlagen. Am Ende des Buches befindet sich ein Index. und Sie können den Index verwenden, um die Bedeutung des entsprechenden Symbols zu finden, das im Buchstandort erscheint. In diesem Repo wird eine glossary_index.md gepflegt, um einige Erläuterungen zu den entsprechenden Symbolen hinzuzufügen und die den Symbolen entsprechenden Seitenzahlen direkt zu markieren. Der Fortschritt wird mit der Überprüfung aktualisiert.

Nach jedem Algorithmus oder Beispiel steht ein ◼️, was anzeigt, dass der Algorithmus oder das Beispiel hier endet. Dies wird als Proof-End-Symbol bezeichnet. Sie werden es kennen, wenn Sie mehr Literatur lesen.

Über die Basis von Logarithmen

Beim Lesen haben wir oft Fragen zur Basis von Logarithmen. Einige der wichtigeren werden im Buch hervorgehoben. Einige, die nicht hervorgehoben werden, können durch den Kontext verstanden werden. Da es außerdem eine Formel zum Ändern der Basis gibt, spielt es keine große Rolle, was die Basis ist. Der Unterschied liegt in einem konstanten Koeffizienten. Die Wahl verschiedener Basen hat jedoch physikalische Bedeutungen und Überlegungen zur Problemlösung. Zur Analyse dieses Problems können Sie sich die Diskussion zur Entropie in PRML 1.6 ansehen.

Was die Frage der konstanten Koeffizienten in der Formel betrifft, kann außerdem die Konvergenzgeschwindigkeit verbessert werden, wenn eine iterative Lösung verwendet wird und die Formel manchmal bis zu einem gewissen Grad vereinfacht wird. Die Details können nach und nach in der Praxis verstanden werden.

Über die Länge

Anteil der Länge jedes Kapitels

Fügen Sie hier ein Diagramm ein, um den von den einzelnen Kapiteln belegten Platz aufzulisten. Unter diesen nimmt SVM den größten Platz unter überwachtem Lernen ein, MCMC nimmt den größten Platz unter unüberwachtem Lernen ein und DT, HMM, CRF, SVD, PCA, LDA usw PageRank nimmt auch den größten Raum ein.

Die Kapitel stehen in Beziehung zueinander, z. B. NB und LR, DT und AdaBoost, Perceptron und SVM, HMM und CRF usw. Wenn Sie in einem großen Kapitel auf Schwierigkeiten stoßen, können Sie den Inhalt der vorherigen Kapitel noch einmal durchgehen oder die Referenzen überprüfen In der Regel werden Verweise auf bestimmte Kapitel gegeben, die das Problem detaillierter beschreiben und möglicherweise erklären, wo Sie nicht weiterkommen.

CH01 Einführung in statistisches Lernen und überwachtes Lernen

Einführung

Drei Elemente statistischer Lernmethoden:

Modell
Strategie
Algorithmus
In der zweiten Auflage wurde die Verzeichnisstruktur dieses Kapitels neu organisiert, um es übersichtlicher zu machen.

CH02-Perzeptron

Perzeptron

Das Perzeptron ist ein lineares Klassifizierungsmodell für die Klassifizierung in zwei Kategorien.
Das Perzeptron entspricht der trennenden Hyperebene im Merkmalsraum, die Instanzen in positive und negative Kategorien unterteilt.

CH03 k Nächste-Nachbarn-Methode

kNN

kNN ist eine grundlegende Klassifizierungs- und Regressionsmethode
Die Auswahl des k-Werts, die Entfernungsmessung und die Klassifizierungsentscheidungsregeln sind die drei Grundelemente von kNN.

CH04 Naive Bayes-Methode

Hinweis:

Die Naive-Bayes-Methode ist eine Klassifizierungsmethode, die auf dem Bayes-Theorem und der Annahme der Unabhängigkeit von Merkmalsbedingungen basiert.

$IIDrightarrow$ Gemeinsame Wahrscheinlichkeitsverteilung von Input und Output
$Bayesrightarrow$ Die Ausgabe mit der größten A-Posteriori-Wahrscheinlichkeit

Wenn eine bestimmte Kombination von x im Priori nicht vorkommt, ist die Wahrscheinlichkeit 0, was der Glättungslösung entspricht. $$P_lambda(X^{(j)}=a_{jl}|Y=c_k)=frac{sum_{i=1}^{N}{I(x_i^{(j)}=a_ {jl}, y_i=c_k)}+lambda}{sum_{i=1}^{N}{I(y_i=c_k)+S_jlambda}}$$
- $lambda = 0$ Entspricht der Maximum-Likelihood-Schätzung
- $lambda = 1$ Entspricht der Laplace-Glättung
Die Naive-Bayes-Methode lernt tatsächlich den Mechanismus der Datengenerierung, es handelt sich also um ein generatives Modell.

CH05 Entscheidungsbaum

DT

Der Entscheidungsbaum ist eine grundlegende Klassifizierungs- und Regressionsmethode

CH06 Logistische Regression und Maximum-Entropie-Modell

LR

Die logistische Regression ist eine klassische Klassifizierungsmethode in der Statistik
Die maximale Entropie ist ein Kriterium für das Lernen von Wahrscheinlichkeitsmodellen. Sie kann auf Klassifizierungsprobleme erweitert werden, um das maximale Entropiemodell zu erhalten.

Bezüglich der Untersuchung der maximalen Entropie wird empfohlen, die Referenzliteratur [1] in diesem Kapitel, Berger, 1996, zu lesen, die für das Verständnis der Beispiele im Buch und das Verständnis des Prinzips der maximalen Entropie hilfreich ist.

Warum werden LR und Maxent in einem Kapitel zusammengefasst?

Alle gehören zum logarithmischen linearen Modell
Beide können zur binären Klassifizierung und Mehrfachklassifizierung verwendet werden
Die Lernmethoden der beiden Modelle verwenden im Allgemeinen die Maximum-Likelihood-Schätzung oder die regulierte Maximum-Likelihood-Schätzung. Sie können als uneingeschränktes Optimierungsproblem formalisiert werden, und die Lösungsmethoden umfassen IIS, GD, BFGS usw.
In der logistischen Regression wird es wie folgt beschrieben:
Die logistische Regression ist trotz ihres Namens eher ein lineares Klassifizierungsmodell als eine logistische Regression, die in der Literatur auch als Logit-Regression, Maximum-Entropie-Klassifizierung (MaxEnt) oder logarithmisch-linearer Klassifikator bezeichnet wird Die möglichen Ergebnisse eines einzelnen Versuchs werden mithilfe einer Logistikfunktion modelliert.
Es gibt auch eine solche Beschreibung
Die logistische Regression ist ein Sonderfall maximaler Entropie mit zwei Bezeichnungen +1 und −1.
Die Ableitung in diesem Kapitel verwendet die Eigenschaft von $yin mathcal{Y}={0,1}$
Manchmal sagen wir, dass die logistische Regression im NLP Maxent genannt wird

CH07 Support Vector Machine

SVM

Support Vector Machine ist ein binäres Klassifizierungsmodell.
Das Grundmodell ist ein linearer Klassifikator, der so definiert ist, dass er das Intervall im Merkmalsraum maximiert. Das maximale Intervall unterscheidet es vom Perzeptron.
Dieses Kapitel nimmt viel Platz ein, da die Idee der Marge fast das gesamte Klassifizierungsproblem verbinden kann.

CH08 Upgrade-Methode

Boosten

Die Boosting-Methode ist eine häufig verwendete statistische Lernmethode, die weit verbreitet und effektiv ist.

----Trennlinie----

Lassen Sie es uns hier aufschlüsseln, da HMM und CRF normalerweise später zur Einführung probabilistischer grafischer Modelle führen. In „Maschinelles Lernen, Zhou Zhihua“ wird ein separates Kapitel über probabilistische grafische Modelle verwendet, um HMM, MRF, CRF und andere Inhalte einzubeziehen. Darüber hinaus gibt es viele verwandte Punkte von HMM bis CRF selbst.

Im ersten Kapitel des Buches werden drei Anwendungen des überwachten Lernens erläutert: Klassifizierung, Kennzeichnung und Regression. Es gibt Ergänzungen in Kapitel 12. Dieses Buch befasst sich hauptsächlich mit den Lernmethoden der ersten beiden. Dementsprechend ist auch hier die Segmentierung angebracht. Das Klassifizierungsmodell wird in einem kleinen Teil erwähnt. Das Kennzeichnungsproblem wird hauptsächlich später eingeführt.

CH09 EM-Algorithmus und seine Förderung

EM

Der EM-Algorithmus ist ein iterativer Algorithmus, der zur Maximum-Likelihood-Schätzung probabilistischer Modellparameter, die versteckte Variablen enthalten, oder zur Maximum-Posteriori-Wahrscheinlichkeitsschätzung verwendet wird. (Die Maximum-Likelihood-Schätzung und die Maximum-Posteriori-Wahrscheinlichkeitsschätzung sind hier Lernstrategien .)
Wenn die Variablen des Wahrscheinlichkeitsmodells alle beobachtete Variablen sind, können die Modellparameter anhand der Daten direkt mithilfe der Maximum-Likelihood-Schätzmethode oder der Bayes'schen Schätzmethode geschätzt werden.
Beachten Sie: Wenn Sie diese Beschreibung im Buch nicht verstehen, lesen Sie bitte den Abschnitt zur Parameterschätzung der Naive-Bayes-Methode in CH04.
Dieser Teil des Codes implementiert BMM und GMM, es lohnt sich, einen Blick darauf zu werfen
In Bezug auf EM wurde nicht viel über dieses Kapitel geschrieben. EM und Hinton haben 2018 den zweiten Artikel von Capsule Network „Matrix Capsules with EM Routing“ veröffentlicht.
In CH22 wird der EM-Algorithmus als grundlegende Methode des maschinellen Lernens klassifiziert und umfasst keine spezifischen Modelle des maschinellen Lernens. Er kann für unbeaufsichtigtes Lernen, überwachtes Lernen und halbüberwachtes Lernen verwendet werden.

CH10 Hidden-Markov-Modell

HMM

Das Hidden-Markov-Modell ist ein statistisches Lernmodell, das zur Kennzeichnung von Problemen verwendet werden kann. Es beschreibt den Prozess der zufälligen Generierung von Beobachtungssequenzen aus Hidden-Markov-Ketten und ist ein generatives Modell.
Das Hidden-Markov-Modell ist ein probabilistisches Modell für Zeitreihen. Es beschreibt den Prozess der zufälligen Generierung einer Folge nicht beobachtbarer Zustände aus einer versteckten Markov-Kette und der anschließenden Generierung einer Beobachtung aus jedem Zustand, um eine Beobachtungssequenz zu generieren.
Es kann zum Markieren von Problemen verwendet werden und der Status entspricht dem Tag.
Drei grundlegende Probleme: Wahrscheinlichkeitsberechnungsproblem, Lernproblem und Vorhersageproblem.

CH11 Bedingtes Zufallsfeld

CRF

Das bedingte Zufallsfeld ist ein bedingtes Wahrscheinlichkeitsverteilungsmodell eines anderen Satzes von Ausgangszufallsvariablen bei gegebenem Satz von Eingangszufallsvariablen. Sein Merkmal besteht darin, dass davon ausgegangen wird, dass die Ausgangszufallsvariablen ein Markov-Zufallsfeld darstellen.
Das probabilistische ungerichtete Graphenmodell, auch bekannt als Markov-Zufallsfeld, ist eine gemeinsame Wahrscheinlichkeitsverteilung , die durch einen ungerichteten Graphen dargestellt werden kann.
Drei grundlegende Probleme: Wahrscheinlichkeitsberechnungsproblem, Lernproblem, Vorhersageproblem

CH12 Zusammenfassung der überwachten Lernmethoden

Zusammenfassung

Dieses Kapitel umfasst nur wenige Seiten. Sie können die folgende Leseroutine berücksichtigen:

Lesen Sie es zusammen mit Kapitel 1
Sollten Sie in früheren Studien auf unklare Fragen stoßen, lesen Sie dieses Kapitel noch einmal.
Lesen Sie dieses Kapitel gründlich durch und erweitern Sie es auf zehn weitere Kapitel.
Beachten Sie, dass es in diesem Kapitel Abbildung 12.2 gibt, in der die logistische Verlustfunktion erwähnt wird, die in $cal{Y}={+1,-1}$ definiert werden sollte ist bei $cal{Y}={0,1}$ definiert, bitte beachten Sie hier.

Durch das Buch von Lehrer Li gewinnt man wirklich jedes Mal etwas Neues, wenn man es liest.

----Trennlinie----

Die zweite Ausgabe fügt acht unbeaufsichtigte Lernmethoden hinzu: Clustering, Singularwertzerlegung, Hauptkomponentenanalyse, latente semantische Analyse, probabilistische latente semantische Analyse, Markov-Ketten-Monte-Carlo-Methode, latente Dirichlet-Zuordnung und PageRank.

CH13 Einführung in das unbeaufsichtigte Lernen

Einführung

Grundprobleme des unbeaufsichtigten Lernens: Clustering, Dimensionsreduktion, Themenanalyse und Graphenanalyse.
Die Frage der horizontalen Struktur und der vertikalen Struktur wird aus der Perspektive der Lagerung betrachtet.
Achten Sie auf Strategien für verschiedene Aufgaben: Minimierung des Abstands zwischen Kategoriezentren, Minimierung des Informationsverlusts bei der Dimensionskonvertierung und Maximierung der Wahrscheinlichkeit der Datengenerierung.
Im Teil des unbeaufsichtigten Lernens wird häufig die Struktur der Daten erwähnt, die sich auf die Beziehung zwischen Variablen in den Daten bezieht.

CH14-Clustering-Methode

Clustering

Beispiel 14.2 ist sehr gut. Es empfiehlt sich, es selbst zu zeichnen und darüber nachzudenken, bevor man es sich später ansieht.
Clustering kann zur Bildkomprimierung verwendet werden

CH15-Singulärwertzerlegung

Grundlegende Methoden des maschinellen Lernens
Der Singularwertzerlegungssatz garantiert, dass eine Zerlegung existiert
Die Singularwertmatrix ist eindeutig, $U, V$ sind nicht eindeutig
Haben Sie eine klare geometrische Interpretation

CH16-Hauptkomponentenanalyse

Die orthogonale Transformation wird verwendet, um die durch linear verwandte Variablen dargestellten Beobachtungsdaten in einige durch linear unabhängige Variablen dargestellte Daten umzuwandeln. Die linear unabhängigen Variablen werden als Hauptkomponenten bezeichnet.
Vor der Hauptkomponentenanalyse müssen die gegebenen Daten normalisiert werden, sodass jede Variable einen Mittelwert von 0 und eine Varianz von 1 hat.
Die Hauptkomponente entspricht nicht einem bestimmten Merkmal der Originaldaten. Die Beziehung zwischen der Hauptkomponente und dem Originalmerkmal kann durch Faktorladungen beobachtet werden.
In diesem Teil des Inhalts wurde das Konzept des Themas noch nicht erwähnt. In späteren Kapiteln werden viele Inhalte im Zusammenhang mit der Themenanalyse vorgestellt. MCMC ist ein in LDA verwendetes Tool.
Es werden die Hauptkomponente der Grundgesamtheit und die Hauptkomponente der Stichprobe erwähnt, wobei erstere die Grundlage für letztere bildet. Dies spiegelt sich hauptsächlich in der Gesamtbetrachtung der Erwartungen und der Stichprobenbetrachtung des Mittelwerts wider. Die Hauptkomponenten der Stichprobe haben dieselben Eigenschaften wie die Hauptkomponenten der Grundgesamtheit.

CH17 Latente semantische Analyse

In der Definition von sklearn ist LSA eine abgeschnittene Singulärwertzerlegung.
Achten Sie darauf, den Unterschied zwischen LSA und PCA zu verstehen, vor allem, ob der Mittelwert entfernt werden soll.
In LSA ist der Themenvektorraum $U$ und die Darstellung von DOC im Themenvektorraum ist $SV^mathrm{T}$. Aber in Sklaern ist xtransformed $UmitSigma$

CH18 Probabilistische latente semantische Analyse

CH19 Markov-Ketten-Monte-Carlo-Methode

Mögliche CH20-Dirichlet-Zuordnung

CH21 PageRank-Algorithmus

CH22 Zusammenfassung unbeaufsichtigter Lernmethoden

Nachwort

Nicht jedes Kapitel in diesem Buch ist vollständig unabhängig. In diesem Teil sollen die Verbindungen zwischen Kapiteln und anwendbaren Datensätzen organisiert werden. Ein Aspekt ist auch, wie weit der Algorithmus implementiert ist und auf welchen Datensätzen er ausgeführt werden kann.

data_algo_map

beziehen sich auf

Expandieren

Zusätzliche Informationen

Version 1.0.0
Typ Python
Aktualisierungszeit 2024-12-29
Größe 5.93MB
Kommt von Github

Ähnliche Anwendungen

Google Blog Converters (Blog-Datenkonverter)

2009-05-24
Nuitka

2024-12-14
SmartChart-Datenvisualisierungsplattform v6.9

2024-11-27
azure storage python

2024-12-15
Redash Open-Source-Datendiagramm-Tool v24.10.0

2024-11-27
datamule python

2024-11-08