Download Lihang - Download do código-fonte Lihang

Lihang

Pitão

1.0.0

Baixar

métodos de aprendizagem estatística

A segunda edição deste livro foi publicada. Todas as atualizações de conteúdo após maio de 2019 referem-se à primeira impressão da segunda edição.

Para o conteúdo da primeira edição, consulte Release first_edition

[TOC]

kit de ferramentas

Para facilitar o aprendizado, algumas descrições de ferramentas são compiladas.

O suporte à fórmula de markdown do GitHub é médio. É recomendado usar o plug-in TeX All the Things do Chrome para renderizar fórmulas do TeX. O editor Markdown local recomenda o Typora. . Tanto o Ubuntu quanto o Windows estão bem.
math_markdown.pdf é a versão exportada de math_markdown.md, que é conveniente para visualização e uso. A versão markdown é a versão mais recente, que cobre basicamente a expressão $LaTeX$ das fórmulas matemáticas usadas no livro.
ref_downloader é um script de download de referência. Este livro deve ser lido em conjunto com as referências. Você deve ler as grandes referências em cada capítulo.
glossary_index é um índice de terminologia informal. Existe um no final deste livro, mas não é conveniente expandi-lo.
symbol_index é um índice de símbolos informal. Existem descrições de símbolos na primeira versão, mas não na segunda versão. Pode ser que haja muitos símbolos envolvidos na parte não supervisionada. Você pode conferir algumas vezes e ver se ajuda.
errata_se Errata não oficial, para referência. Se não tiver certeza sobre algum conteúdo, você pode consultá-lo e esperar que ajude.

Prefácio

Em maio de 2019 foi lançada a tão esperada segunda edição. Fiz um pedido imediatamente e a previsão é de que seja enviado no Dia das Mães.
Ganhei o livro novo no dia 13 de maio, e a segunda edição tem foto nova, com cabelo curto, e pareço mais jovem que antes...
A segunda edição revisou os sinais de pontuação. Na primeira edição, as vírgulas estavam em chinês e os pontos finais estavam em inglês. A segunda edição mudou o período inglês anterior para um período chinês.
A tabela de símbolos foi cancelada na segunda edição, talvez porque símbolos diferentes foram usados em alguns lugares antes e depois do mesmo livro? Portanto, neste repositório, tentamos adicionar uma tabela de símbolos para explicação para facilitar a consulta.
A segunda edição adiciona oito métodos de aprendizagem não supervisionados. Neste ponto, exceto Apriori, os dez principais algoritmos de mineração de dados estão completos.

Se você precisar fazer referência a este repositório:

Formato: SmirkCao, Lihang, (2018), GitHub repository, https://github.com/SmirkCao/Lihang

ou

 @misc{SmirkCao,
  author = {SmirkCao},
  title = {Lihang},
  year = {2018},
  publisher = {GitHub},
  journal = {GitHub repository},
  howpublished = {url{https://github.com/SmirkCao/Lihang}},
  commit = {c5624a9bd757a5cc88e78b85b89e9221deb08270}
}

Prefácio

Esta parte do conteúdo não corresponde ao prefácio em "Métodos de Aprendizagem Estatística". O prefácio do livro também está bem escrito e é citado da seguinte forma:

Em termos de seleção de conteúdo, focamos na introdução dos métodos mais importantes e comumente utilizados, especialmente métodos relacionados a problemas de classificação e rotulagem .
Tente usar uma estrutura unificada para discutir todos os métodos, para que todo o livro não perca sua sistematicidade.
Aplicável a estudantes universitários e estudantes de pós-graduação com especialização em recuperação de informações e processamento de linguagem natural.

Outra coisa a notar é a formação profissional do autor.

O autor tem se envolvido em pesquisas sobre vários processamentos inteligentes de dados de texto usando métodos de aprendizagem estatística, incluindo processamento de linguagem natural, recuperação de informações e mineração de dados de texto.

Cada um tem sua maneira de entender e terão entendimentos diferentes sobre o mesmo conteúdo.
Os livros são como dados, o aprendizado é como treinamento e as pessoas são modelos.

Se você usar meu modelo para implementar a pesquisa por similaridade, o livro que é semelhante ao livro do Sr. Li é "Dispositivos Optoeletrônicos Semicondutores". É uma pena que eu não o tenha estudado repetidamente quando era jovem.

Espero que, no processo de leitura repetida, o livro inteiro fique cada vez mais grosso. Todos os documentos e códigos desta série, salvo especificação em contrário, referem-se a "Métodos Estatísticos de Aprendizagem" de Li Hang. Conteúdos em outras referências serão vinculados se citados.

Algumas referências estão listadas nas Refs, algumas das quais são muito úteis para a compreensão do conteúdo do livro. Descrições e explicações desses arquivos serão adicionadas em Refs/README.md correspondente à seção de referência. Algumas notas sobre outras referências também foram adicionadas a este documento.

Para facilitar o download de referências, ref_downloader.sh foi adicionado durante a revisão02, que pode ser usado para baixar as referências listadas no livro. O processo de atualização é concluído gradualmente à medida que a revisão02 avança.

Além disso, este livro do professor Li Hang, ~~É muito fino (a segunda versão não é mais fina)~~ , mas quase todas as frases trazem muitos pontos à tona e vale a pena ler continuamente.

Há uma tabela de símbolos após o índice do livro, que explica as definições dos símbolos, portanto, se houver símbolos que você não entende, você pode procurar na tabela, há um índice no final do livro; e você pode usar o índice para encontrar o significado do símbolo correspondente que aparece no livro Localização. Neste Repo, um glossary_index.md é mantido para adicionar algumas explicações aos símbolos correspondentes e marcar diretamente os números das páginas correspondentes aos símbolos.

Após cada algoritmo ou exemplo, haverá um ◼️, indicando que o algoritmo ou exemplo termina aqui. Isso é chamado de símbolo de fim de prova. Você saberá disso se ler mais literatura.

Sobre a base dos logaritmos

Ao ler, muitas vezes temos dúvidas sobre a base dos logaritmos. Algumas das mais importantes são enfatizadas no livro. Alguns que não são enfatizados podem ser compreendidos através do contexto. Além disso, como existe uma fórmula para alterar a base, não importa muito qual seja a base. A diferença está em um coeficiente constante. No entanto, a escolha de bases diferentes terá significados físicos e considerações de resolução de problemas. Para análise desta questão, você pode ver a discussão sobre entropia no PRML 1.6 para entender.

Além disso, no que diz respeito à questão dos coeficientes constantes na fórmula, se for utilizada uma solução iterativa e por vezes a fórmula for simplificada até certo ponto, a velocidade de convergência pode ser melhorada. Os detalhes podem ser gradualmente compreendidos na prática.

Sobre o comprimento

Proporção da extensão de cada capítulo

Insira aqui um gráfico para listar o espaço ocupado por cada capítulo Entre eles, SVM ocupa o maior espaço entre a aprendizagem supervisionada, MCMC ocupa o maior espaço entre a aprendizagem não supervisionada e DT, HMM, CRF, SVD, PCA, LDA e. PageRank também ocupa o maior espaço relativamente grande.

Os capítulos estão relacionados entre si, como NB e LR, DT e AdaBoost, Perceptron e SVM, HMM e CRF, etc. Se encontrar dificuldades em um capítulo grande, você pode revisar o conteúdo dos capítulos anteriores ou verificar as referências geralmente são fornecidas referências que descrevem o problema com mais detalhes e podem explicar onde você está preso.

CH01 Introdução à Aprendizagem Estatística e Aprendizagem Supervisionada

Introdução

Três elementos dos métodos de aprendizagem estatística:

Modelo
Estratégia
algoritmo
A segunda edição reorganizou a estrutura de diretórios deste capítulo para torná-la mais clara.

Perceptrão CH02

Perceptron

O perceptron é um modelo de classificação linear para classificação de duas categorias.
O perceptron corresponde ao hiperplano de separação no espaço de características que divide as instâncias em categorias positivas e negativas.

CH03 k método do vizinho mais próximo

kNN

kNN é um método básico de classificação e regressão
A seleção do valor k, medição de distância e regras de decisão de classificação são os três elementos básicos do kNN.

Método CH04 Naive Bayes

N. B.

O método Naive Bayes é um método de classificação baseado no teorema de Bayes e na suposição de independência das condições características.

$IIDrightarrow$ Distribuição de probabilidade conjunta de entrada e saída
$Bayesrightarrow$ A saída com a maior probabilidade posterior

Se uma determinada combinação de x não aparecer a priori, a probabilidade será 0, correspondendo à solução de suavização. $$P_lambda(X^{(j)}=a_{jl}|Y=c_k)=frac{sum_{i=1}^{N}{I(x_i^{(j)}=a_ {jl}, y_i=c_k)}+lambda}{sum_{i=1}^{N}{I(y_i=c_k)+S_jlambda}}$$
- $lambda = 0$ Corresponde à estimativa de máxima verossimilhança
- $lambda = 1$ Corresponde à suavização Laplaciana
O método Naive Bayes, na verdade, aprende o mecanismo de geração de dados, portanto é um modelo generativo.

Árvore de decisão CH05

DT

A árvore de decisão é um método básico de classificação e regressão

CH06 Regressão logística e modelo de máxima entropia

LR

A regressão logística é um método clássico de classificação em estatística
A entropia máxima é um critério para aprendizagem do modelo de probabilidade. Pode ser estendida a problemas de classificação para obter o modelo de entropia máxima.

Em relação ao estudo da entropia máxima, recomenda-se a leitura da literatura de referência [1] neste capítulo, Berger, 1996, que é útil para compreender os exemplos do livro e compreender o princípio da entropia máxima.

Então, por que LR e Maxent são colocados em um capítulo?

Todos pertencem ao modelo linear logarítmico
Ambos podem ser usados para classificação binária e multiclassificação
Os métodos de aprendizagem dos dois modelos geralmente usam estimativa de máxima verossimilhança ou estimativa de máxima verossimilhança regularizada. Pode ser formalizado como um problema de otimização irrestrito e os métodos de solução incluem IIS, GD, BFGS, etc.
É descrito a seguir em Regressão logística,
A regressão logística, apesar do nome, é um modelo linear para classificação em vez de regressão. A regressão logística também é conhecida na literatura como regressão logit, classificação de entropia máxima (MaxEnt) ou classificador log-linear. Neste modelo, as probabilidades descrevem. os resultados possíveis de um único ensaio são modelados usando uma função logística.
Também existe essa descrição
A regressão logística é um caso especial de entropia máxima com dois rótulos +1 e −1.
A derivação neste capítulo usa a propriedade de $yin mathcal{Y}={0,1}$
Às vezes dizemos que a regressão logística se chama Maxent na PNL

Máquina de vetores de suporte CH07

SVM

A máquina de vetores de suporte é um modelo de classificação binária.
O modelo básico é um classificador linear definido para maximizar o intervalo no espaço de características. O intervalo máximo o torna diferente do perceptron.
Este capítulo ocupa muito espaço, pois a ideia de margem pode conectar quase todo o problema de classificação.

Método de atualização CH08

Impulsionando

O método de reforço é um método de aprendizagem estatística comumente usado, amplamente utilizado e eficaz.

----Linha de separação----

Vamos detalhar aqui, porque HMM e CRF geralmente levam à introdução de modelos gráficos probabilísticos. Em "Aprendizado de Máquina, Zhou Zhihua", um capítulo separado de modelo gráfico probabilístico é usado para incluir HMM, MRF, CRF e outros conteúdos. Além disso, existem muitos pontos relacionados do HMM ao próprio CRF.

No primeiro capítulo do livro são explicadas três aplicações da aprendizagem supervisionada: classificação, rotulagem e regressão. Existem suplementos no Capítulo 12. Este livro considera principalmente os métodos de aprendizagem dos dois primeiros. Conseqüentemente, a segmentação também é apropriada aqui. O modelo de classificação é introduzido anteriormente, e a regressão é mencionada em uma pequena parte. O problema de rotulagem é introduzido principalmente mais tarde.

Algoritmo CH09 EM e sua promoção

EM

O algoritmo EM é um algoritmo iterativo usado para estimativa de máxima verossimilhança de parâmetros de modelos probabilísticos contendo variáveis ocultas, ou estimativa de máxima probabilidade posterior. (A estimativa de máxima verossimilhança e a estimativa de máxima probabilidade posterior aqui são estratégias de aprendizagem )
Se todas as variáveis do modelo de probabilidade forem variáveis observadas, então, dados os dados, os parâmetros do modelo podem ser estimados diretamente usando o método de estimativa de máxima verossimilhança ou o método de estimativa bayesiana.
Observe que se você não entender esta descrição no livro, consulte a parte de estimativa de parâmetros do método Naive Bayes em CH04.
Essa parte do código implementa BMM e GMM, vale a pena dar uma olhada
Em relação ao EM, pouco foi escrito sobre este capítulo. EM é um dos dez principais algoritmos e Hinton publicou o segundo artigo da Capsule Network "Matrix Capsules with EM Routing" no ICLR.
No CH22, o algoritmo EM é classificado como um método básico de aprendizado de máquina e não envolve modelos específicos de aprendizado de máquina. Ele pode ser usado para aprendizado não supervisionado, aprendizado supervisionado e aprendizado semissupervisionado.

Modelo de Markov oculto CH10

HUM

O modelo oculto de Markov é um modelo de aprendizagem estatística que pode ser usado para rotular problemas. Ele descreve o processo de geração aleatória de sequências de observação a partir de cadeias ocultas de Markov e é um modelo generativo.
O modelo oculto de Markov é um modelo probabilístico sobre séries temporais. Ele descreve o processo de geração aleatória de uma sequência de estados não observáveis a partir de uma cadeia de Markov oculta e, em seguida, de geração de uma observação abreviada de cada estado para gerar uma sequência de observação.
Pode ser usado para etiquetar problemas e o status corresponde à etiqueta.
Três problemas básicos: problema de cálculo de probabilidade, problema de aprendizagem e problema de previsão.

Campo Aleatório Condicional CH11

CRF

Campo aleatório condicional é um modelo de distribuição de probabilidade condicional de outro conjunto de variáveis aleatórias de saída dado um conjunto de variáveis aleatórias de entrada. Sua característica é que se assume que as variáveis aleatórias de saída constituem um campo aleatório de Markov .
O modelo probabilístico de gráfico não direcionado, também conhecido como campo aleatório de Markov, é uma distribuição de probabilidade conjunta que pode ser representada por um gráfico não direcionado.
Três problemas básicos: problema de cálculo de probabilidade, problema de aprendizagem, problema de previsão

Capítulo 12 Resumo dos Métodos de Aprendizagem Supervisionada

Resumo

Este capítulo tem apenas algumas páginas. Você pode considerar a seguinte rotina de leitura:

Leia com o Capítulo 1
Se você encontrar questões pouco claras em estudos anteriores, leia este capítulo novamente.
Leia este capítulo com atenção e expanda deste capítulo para outros dez capítulos.
Observe que há a Figura 12.2 neste capítulo, que menciona a função de perda logística $y$ aqui deve ser definida em $cal{Y}={+1,-1}$. definido em $cal{Y}={0,1}$, preste atenção aqui.

O livro do professor Li realmente faz você ganhar algo novo cada vez que o lê.

----Linha de separação----

A segunda edição adiciona oito métodos de aprendizagem não supervisionados: agrupamento, decomposição de valores singulares, análise de componentes principais, análise semântica latente, análise semântica latente probabilística, método Monte Carlo da cadeia de Markov, alocação latente de Dirichlet e PageRank.

CH13 Introdução à aprendizagem não supervisionada

Introdução

Problemas básicos de aprendizagem não supervisionada: agrupamento, redução de dimensionalidade, análise de tópicos e análise de gráficos.
A questão da estrutura horizontal e da estrutura vertical é considerada do ponto de vista do armazenamento.
Preste atenção às estratégias para diferentes tarefas: minimizar a distância entre os centros das categorias, minimizar a perda de informações durante a conversão de dimensões e maximizar a probabilidade de geração de dados.
Na parte de aprendizagem não supervisionada, é frequentemente mencionada a estrutura dos dados , que se refere à relação entre as variáveis nos dados.

Método de agrupamento CH14

Agrupamento

O Exemplo 14.2 é muito bom. Recomenda-se desenhá-lo e pensar sobre ele antes de examiná-lo mais tarde.
Clustering pode ser usado para compactação de imagem

Decomposição de valor singular CH15

Métodos básicos de aprendizado de máquina
O teorema da decomposição em valor singular garante que a decomposição existe
A matriz de valor singular é única, $U, V$ não são únicos
Tenha uma interpretação geométrica clara

Análise de Componentes Principais CH16

A transformação ortogonal é usada para converter os dados de observação representados por variáveis linearmente relacionadas em alguns dados representados por variáveis linearmente independentes. As variáveis linearmente independentes são chamadas de componentes principais.
Antes da análise de componentes principais, os dados fornecidos precisam ser normalizados para que cada variável tenha média 0 e variância 1.
O componente principal não corresponde a uma determinada característica dos dados originais. A relação entre o componente principal e a característica original pode ser observada através de cargas fatoriais.
Esta parte do conteúdo ainda não mencionou o conceito de tópico . Os capítulos posteriores começam a apresentar muito conteúdo relacionado à análise de tópicos, todos relacionados a tópicos.
São mencionadas a componente principal da população e a componente principal da amostra, sendo a primeira a base da segunda. Isso se reflete principalmente na consideração geral das expectativas e na consideração amostral da média. Os componentes principais da amostra têm as mesmas propriedades que os componentes principais da população.

CH17 Análise semântica latente

Na definição de sklearn, LSA é uma decomposição de valor singular truncada.
Preste atenção para entender a diferença entre LSA e PCA, principalmente se deve remover a média.
No LSA, o espaço vetorial de tópico é $U$, e a representação de DOC no espaço vetorial de tópico é $SV^mathrm{T}$. Mas no sklaern, xtransformado é $UmitSigma$

Análise Semântica Latente Probabilística CH18

Método Monte Carlo da cadeia de Markov CH19

Alocação potencial de Dirichlet CH20

Algoritmo CH21 PageRank

CH22 Resumo de métodos de aprendizagem não supervisionados

pós-escrito

Cada capítulo deste livro não é completamente independente. Esta parte pretende organizar as conexões entre os capítulos e os conjuntos de dados aplicáveis. Até que ponto o algoritmo é implementado e em quais conjuntos de dados ele pode ser executado também são um aspecto.

data_algo_map