Lihang 다운로드 - Lihang 소스 코드 다운로드

Lihang

파이썬

1.0.0

다운로드

통계적 학습 방법

이 책의 제2판이 출판되었습니다. 2019년 5월 이후의 모든 내용 업데이트는 제2판의 초판을 참조합니다.

초판의 내용은 Release first_edition을 참조하세요.

[목차]

도구 키트

학습을 용이하게 하기 위해 일부 도구 설명이 정리되어 있습니다.

GitHub의 마크다운 수식 지원은 평균 수준입니다. TeX 수식을 렌더링하려면 Chrome 플러그인 TeX All the Things를 사용하는 것이 좋습니다. 로컬 Markdown 편집기에서는 Ctrl+를 열고 기본 설정을 열고 구문 지원 섹션에서 인라인 수학을 확인하는 것이 좋습니다. . 우분투나 윈도우 모두 괜찮습니다.
math_markdown.pdf는 math_markdown.md를 내보낸 버전으로 보기와 사용이 편리합니다. 마크다운 버전은 최신 버전으로 책에서 사용하는 수학 공식의 $LaTeX$ 표현을 기본적으로 다루고 있습니다.
ref_downloader는 참고자료와 함께 읽어야 할 참고자료입니다.
Glossary_index는 비공식적인 용어 색인입니다. 이 책의 뒷부분에 하나가 있지만 확장하기에는 불편합니다. 이 부분에 일부 확장된 내용이 추가되었습니다.
Symbol_index는 비공식적인 기호 인덱스입니다. 첫 번째 버전에는 기호 설명이 있지만 두 번째 버전에는 없습니다. 감독되지 않은 부분에 실제로 너무 많은 기호가 포함되어 있을 수 있습니다. 간단히 말해서 이 부분은 혼동을 피하기 위해 유지됩니다. 가끔씩 확인해 보시면 도움이 될 것 같습니다.
errata_se 비공식 정오표입니다. 참고용입니다. 내용에 대해 불분명하다고 생각되는 경우 해당 내용을 참조하여 도움이 되기를 바랍니다.

머리말

2019년 5월, 오랫동안 기다려온 2판이 출시되었습니다. 바로 주문했는데 어버이날에 배송될 예정입니다.
5월 13일에 새 책을 받았는데, 2판에는 새로운 사진이 있고, 머리가 짧고, 예전보다 더 어려보이네요...
제2판에서는 구두점을 수정하여 초판에서는 쉼표를 중국어로, 마침표를 영어로 표기했습니다. 제2판에서는 이전 영어시대를 중국어 시대로 바꾸었다.
2판에서는 기호표가 취소되었는데, 같은 책의 전후에 몇몇 곳에서 다른 기호가 사용되었기 때문이 아닐까? 그래서 이 저장소에서는 쿼리를 용이하게 하기 위해 설명을 위한 기호 테이블을 추가하려고 합니다.
두 번째 버전에서는 Apriori를 제외한 8개의 비지도 학습 방법이 추가되어 상위 10개의 데이터 마이닝 알고리즘이 완성되었습니다.

이 Repo를 참조해야 하는 경우:

형식: SmirkCao, Lihang, (2018), GitHub repository, https://github.com/SmirkCao/Lihang

또는

 @misc{SmirkCao,
  author = {SmirkCao},
  title = {Lihang},
  year = {2018},
  publisher = {GitHub},
  journal = {GitHub repository},
  howpublished = {url{https://github.com/SmirkCao/Lihang}},
  commit = {c5624a9bd757a5cc88e78b85b89e9221deb08270}
}

머리말

이 부분은 "통계적 학습 방법"의 서문과 일치하지 않습니다. 책의 서문 도 잘 작성되어 있으며 다음과 같이 인용됩니다.

콘텐츠 선택 측면에서 가장 중요하고 일반적으로 사용되는 방법, 특히 분류 및 라벨링 문제와 관련된 방법을 소개하는 데 중점을 둡니다.
책 전체가 체계성을 잃지 않도록 통일된 프레임워크를 사용하여 모든 방법을 논의하도록 노력하세요.
정보검색 및 자연어 처리를 전공하는 대학생 및 대학원생에게 적용 가능합니다.

또 한 가지 주목할 점은 작가의 작업 배경이다.

저자는 자연어 처리, 정보 검색, 텍스트 데이터 마이닝 등 통계 학습 방법을 활용하여 텍스트 데이터의 다양한 지능적 처리에 관한 연구를 진행해 왔습니다.

사람마다 이해하는 방식이 다르고, 같은 내용이라도 이해하는 방식이 다릅니다.
책은 데이터와 같고, 학습은 훈련과 같으며, 사람은 모델입니다.

내 모델을 사용하여 유사성 검색을 구현하면 Li 선생님의 책과 유사한 책이 "Semiconductor Optoelectronic Devices"입니다. 어렸을 때 반복해서 읽지 않은 것이 아쉽습니다.

반복해서 읽는 과정에서 책 전체가 두꺼워지고 얇아지기를 바랍니다. 이 시리즈의 모든 문서와 코드는 별도로 명시하지 않는 한 "책에 포함된" 설명은 Li Hang 선생님의 "통계적 학습 방법"을 의미합니다. 다른 참고문헌의 내용을 인용할 경우 링크로 연결해 드립니다.

일부 참고문헌은 Refs에 나열되어 있으며, 그 중 일부는 책의 내용을 이해하는 데 매우 도움이 됩니다. 이러한 파일에 대한 설명 및 설명은 참조 섹션에 해당하는 Refs/README.md에 추가됩니다. 다른 참고문헌에 대한 일부 참고 사항도 이 문서에 추가되었습니다.

참조 다운로드를 용이하게 하기 위해 review02 중에 ref_downloader.sh가 추가되었으며, 이를 사용하여 책에 나열된 참조를 다운로드할 수 있습니다. review02가 진행됨에 따라 업데이트 프로세스가 점차 완료됩니다.

게다가 이항 선생님의 이 책은, ~~정말 얇습니다 (두 번째 버전은 더 이상 얇지 않습니다)~~ , 그러나 거의 모든 문장은 많은 요점을 제시하며 반복해서 읽을 가치가 있습니다.

책의 목차 뒤에는 기호 정의를 설명하는 기호표가 있으니, 이해가 안 되는 기호가 있으면 책 뒤편에 색인이 있으니, 기호표에서 찾아보시면 됩니다. 그리고 색인을 이용하여 책 위치에 나타나는 해당 기호의 의미를 찾을 수 있습니다. 본 Repo에서는 해당 기호에 대한 설명을 추가하고 해당 기호에 해당하는 페이지 번호를 직접 표시할 수 있도록 Glossary_index.md가 유지됩니다. 진행 상황은 리뷰와 함께 업데이트됩니다.

각 알고리즘이나 예제 뒤에는 ◼️가 표시되어 알고리즘이나 예제가 여기에서 끝난다는 것을 나타냅니다. 이것을 증명 끝 기호라고 합니다. 더 많은 문헌을 읽어보면 알 수 있습니다.

로그의 밑수에 대하여

책을 읽을 때 우리는 로그의 밑수에 관해 종종 질문을 받습니다. 이 책에서는 더 중요한 것 중 일부를 강조합니다. 강조되지 않은 부분은 문맥을 통해 이해할 수 있습니다. 또한, 밑을 바꾸는 공식이 있기 때문에 밑이 무엇인지는 크게 중요하지 않습니다. 그 차이는 상수 계수에 있습니다. 그러나 다른 기반을 선택하는 것은 물리적 의미와 문제 해결 고려 사항을 갖습니다. 이 문제를 분석하려면 PRML 1.6의 엔트로피에 대한 설명을 참조하세요.

또한, 수식의 상수 계수 문제에 대해서는 반복해를 사용하고 때로는 수식이 어느 정도 단순화되면 수렴 속도가 향상될 수 있다. 세부 사항은 실제로 점차적으로 이해될 수 있습니다.

길이에 대해

각 장의 길이 비율

각 장이 차지하는 공간을 나열하려면 여기에 차트를 삽입하세요. 그 중 SVM은 지도 학습 중에서 가장 큰 공간을 차지하고, MCMC는 비지도 학습 중에서 가장 큰 공간을 차지하며, DT, HMM, CRF, SVD, PCA, LDA 및 PageRank는 또한 상대적으로 가장 큰 공간을 차지합니다.

NB와 LR, DT와 AdaBoost, Perceptron과 SVM, HMM과 CRF 등 장이 서로 연관되어 있습니다. 큰 장에서 어려움을 겪으면 이전 장의 내용을 검토하거나 참고 자료를 확인할 수 있습니다. 일반적으로 문제를 더 자세히 설명하고 문제가 있는 부분을 설명하는 참조 자료가 제공됩니다.

CH01 통계 학습 및 지도 학습 소개

소개

통계 학습 방법의 세 가지 요소:

모델
전략
연산
제2판에서는 이 장의 디렉토리 구조를 더 명확하게 재구성했습니다.

CH02 퍼셉트론

퍼셉트론

퍼셉트론은 두 범주 분류를 위한 선형 분류 모델입니다.
퍼셉트론은 인스턴스를 양수 범주와 음수 범주로 나누는 특징 공간의 분리 초평면에 해당합니다.

CH03 k 최근접이웃법

kNN

kNN은 기본적인 분류 및 회귀 방법입니다.
k 값의 선택, 거리 측정, 분류 결정 규칙은 kNN의 세 가지 기본 요소입니다.

CH04 나이브 베이즈 방법

NB

Naive Bayes 방법은 Bayes의 정리와 특징 조건의 독립성을 가정하는 분류 방법입니다.

$IID오른쪽화살표$ 입력과 출력의 결합 확률 분포
$베이즈오른쪽화살표$ 사후 확률이 가장 큰 출력

x의 특정 조합이 사전에 나타나지 않으면 확률은 평활 솔루션에 해당하는 0이 됩니다. $$P_lambda(X^{(j)}=a_{jl}|Y=c_k)=frac{sum_{i=1}^{N}{I(x_i^{(j)}=a_ {jl}, y_i=c_k)}+lambda}{sum_{i=1}^{N}{I(y_i=c_k)+S_jlambda}}$$
- $람다 = 0$ 최대 우도 추정에 해당
- $람다 = 1$ 라플라시안 평활화에 해당
Naive Bayes 방법은 실제로 데이터를 생성하는 메커니즘을 학습하므로 생성 모델입니다.

CH05 의사결정 트리

DT

의사결정나무는 기본적인 분류 및 회귀 방법입니다.

CH06 로지스틱 회귀 및 최대 엔트로피 모델

LR

로지스틱 회귀는 통계의 고전적인 분류 방법입니다.
최대 엔트로피는 확률 모델 학습의 기준으로, 최대 엔트로피 모델을 얻기 위해 분류 문제로 확장될 수 있습니다.

최대 엔트로피에 대한 연구는 본 장의 참고문헌 [1](Berger, 1996)을 읽어보는 것이 좋다. 이는 책에 나오는 사례를 이해하고 최대 엔트로피의 원리를 파악하는 데 도움이 된다.

그렇다면 LR과 Maxent가 한 챕터에 배치된 이유는 무엇일까요?

모두 로그 선형 모델에 속합니다.
둘 다 이진 분류 및 다중 분류에 사용될 수 있습니다.
두 모델의 학습 방법은 일반적으로 최대 우도 추정 또는 정규화된 최대 우도 추정을 사용하며, 제약 조건이 없는 최적화 문제로 형식화할 수 있으며 해결 방법에는 IIS, GD, BFGS 등이 포함됩니다.
로지스틱 회귀분석에서는 다음과 같이 설명됩니다.
로지스틱 회귀는 이름에도 불구하고 회귀보다는 분류를 위한 선형 모델입니다. 로지스틱 회귀는 문헌에서 로짓 회귀, 최대 엔트로피 분류(MaxEnt) 또는 로그 선형 분류기로도 알려져 있습니다. 단일 시행의 가능한 결과는 로지스틱 함수를 사용하여 모델링됩니다.
이런 설명도 있어요
로지스틱 회귀는 +1과 -1이라는 두 개의 레이블이 있는 최대 엔트로피의 특별한 경우입니다.
이 장의 파생에서는 $yin mathcal{Y}={0,1}$ 속성을 사용합니다.
NLP에서는 로지스틱 회귀를 Maxent라고 부르기도 합니다.

CH07 지원 벡터 머신

SVM

지원 벡터 머신은 이진 분류 모델입니다.
기본 모델은 특징 공간에서 간격을 최대화하기 위해 정의된 선형 분류기입니다. 최대 간격은 퍼셉트론과 다릅니다.
이 장은 마진 개념이 전체 분류 문제를 거의 연결할 수 있기 때문에 많은 공간을 차지합니다.

CH08 업그레이드 방법

부스팅

부스팅 방법은 널리 사용되며 효과적인 통계 학습 방법입니다.

----분리선----

HMM과 CRF는 대개 나중에 확률적 그래픽 모델의 도입으로 이어지므로 여기서 세분화하겠습니다. "머신러닝, Zhou Zhihua"에서는 HMM, MRF, CRF 및 기타 콘텐츠를 포함하기 위해 별도의 확률적 그래픽 모델 장을 사용합니다. 이밖에도 HMM부터 CRF 자체까지 관련 포인트가 많다.

책의 첫 번째 장에서는 지도 학습의 세 가지 응용 프로그램인 분류, 레이블 지정 및 회귀에 대해 설명합니다. 12장에 보충 자료가 있습니다. 이 책에서는 처음 두 장의 학습 방법을 주로 고려합니다. 따라서 여기서도 분할이 적절합니다. 분류 모델은 앞서 소개되었으며, 라벨링 문제는 주로 나중에 소개되었습니다.

CH09 EM 알고리즘 및 프로모션

여자 이름

EM 알고리즘은 숨겨진 변수가 포함된 확률 모델 매개변수의 최대 우도 추정 이나 최대 사후 확률 추정에 사용되는 반복 알고리즘입니다. (여기서 최대 우도 추정과 최대 사후 확률 추정은 학습 전략 이다)
확률 모델의 변수가 모두 관측 변수인 경우 데이터가 주어지면 최대 우도 추정 방법 또는 베이지안 추정 방법을 사용하여 모델 모수를 직접 추정할 수 있습니다.
참고로, 책에 나온 설명이 이해가 안 되시면 CH04의 Naive Bayes 방법 중 모수 추정 부분을 참고하시기 바랍니다.
코드의 이 부분은 BMM 및 GMM을 구현하므로 살펴볼 가치가 있습니다.
EM에 관해서는 이 장에 대해 많이 쓰여지지 않았습니다. EM은 상위 10개 알고리즘 중 하나입니다. Hinton은 2018년 ICLR에서 Capsule Network "Matrix Capsules with EM Routing"의 두 번째 기사를 게시했습니다.
CH22에서 EM 알고리즘은 기본 기계 학습 방법으로 분류되며 특정 기계 학습 모델을 포함하지 않으며 비지도 학습, 지도 학습 및 준지도 학습에 사용할 수 있습니다.

CH10 은닉 마르코프 모델

흠

은닉 마르코프 모델(Hidden Markov Model)은 라벨링 문제에 사용할 수 있는 통계적 학습 모델로, 은닉 마르코프 체인에서 관찰 시퀀스를 무작위로 생성하는 과정을 설명하는 생성 모델입니다.
은닉 마르코프 모델은 시계열에 대한 확률 모델로, 은닉 마르코프 체인에서 관찰할 수 없는 상태의 시퀀스를 무작위로 생성한 다음 각 상태 약식에서 관찰을 생성하여 관찰 시퀀스를 생성하는 과정을 설명합니다.
태그 문제에 사용할 수 있으며 상태는 태그에 해당합니다.
세 가지 기본 문제: 확률 계산 문제, 학습 문제, 예측 문제.

CH11 조건부 무작위 필드

CRF

조건부 확률 필드(Conditional Random Field)는 입력 확률 변수 집합이 주어지면 다른 출력 확률 변수 집합의 조건부 확률 분포 모델로, 출력 확률 변수가 마르코프 확률 필드를 구성한다고 가정하는 것이 특징입니다.
마르코프 랜덤 필드(Markov Random Field)라고도 알려진 확률적 무향 그래프 모델은 무향 그래프로 표현할 수 있는 결합 확률 분포 입니다.
세 가지 기본 문제: 확률 계산 문제, 학습 문제, 예측 문제

CH12 지도 학습 방법 요약

요약

이 장에는 몇 페이지만 포함되어 있습니다. 다음 읽기 루틴을 고려해 보세요.

1장부터 읽어보세요
이전 연구에서 불분명한 질문을 발견했다면 이 장을 다시 읽어보세요.
이 장을 두껍게 읽고 이 장에서 다른 10개의 장으로 확장하십시오.
이 장에는 로지스틱 손실 함수를 언급하는 그림 12.2가 있습니다. 여기서 $y$는 $cal{Y}={+1,-1}$에 정의되어야 합니다. $cal{Y}={0,1}$에서 정의됩니다. 여기에 주의하세요.

리 선생님의 책은 정말 읽을 때마다 새로운 것을 얻게 해 줍니다.

----분리선----

두 번째 버전에는 클러스터링, 단일 값 분해, 주성분 분석, 잠재 의미 분석, 확률적 잠재 의미 분석, 마르코프 체인 몬테 카를로 방법, 잠재 Dirichlet 할당 및 PageRank의 8가지 비지도 학습 방법이 추가되었습니다.

CH13 비지도 학습 소개

소개

비지도 학습의 기본 문제: 클러스터링, 차원 축소, 주제 분석 및 그래프 분석.
수평 구조 와 수직 구조 의 문제를 수납의 관점에서 고찰한다.
카테고리 중심 간 거리 최소화, 차원 변환 중 정보 손실 최소화, 데이터 생성 확률 최대화 등 다양한 작업에 대한 전략에 주의하세요.
비지도 학습 부분에서는 데이터의 구조가 자주 언급되는데, 이는 데이터 내 변수 간의 관계를 의미합니다.

CH14 클러스터링 방법

클러스터링

예제 14.2는 매우 좋습니다. 나중에 보기 전에 직접 그려보고 생각해 보는 것이 좋습니다.
이미지 압축에 클러스터링을 사용할 수 있습니다.

CH15 특이값 분해

기본 기계 학습 방법
특이값 분해 정리는 분해가 존재함을 보장합니다.
특이값 행렬은 고유하며, $U, V$는 고유하지 않습니다.
명확한 기하학적 해석을 가지고 있습니다.

CH16 주성분 분석

직교 변환은 선형 관련 변수로 표시되는 관측 데이터를 선형 독립 변수로 표시되는 몇 가지 데이터로 변환하는 데 사용됩니다 .
주성분 분석을 하기 전에 주어진 데이터를 정규화하여 각 변수의 평균이 0, 분산이 1이 되도록 해야 합니다.
주성분은 원본 데이터의 특정 특성과 일치하지 않습니다. 주성분과 원본 특성 간의 관계는 요인 로딩을 통해 관찰할 수 있습니다.
이 부분에서는 아직 토픽 의 개념이 언급되지 않았으며, 이후 장에서는 토픽 분석과 관련된 내용이 많이 소개되기 시작합니다. MCMC는 모두 토픽과 관련된 도구입니다.
모집단 주성분과 표본 주성분이 언급되는데, 전자가 후자의 기초가 됩니다. 이는 주로 기대치의 전체 고려 사항과 평균의 표본 고려 사항에 반영됩니다. 표본 주성분은 모집단 주성분과 동일한 속성을 갖습니다.

CH17 잠재 의미 분석

sklearn의 정의에서 LSA는 잘린 특이값 분해입니다.
LSA와 PCA의 차이점, 주로 평균 제거 여부를 이해하는 데주의를 기울이십시오.
LSA에서 토픽 벡터 공간은 $U$이고, 토픽 벡터 공간에서 DOC의 표현은 $SV^mathrm{T}$입니다. 그러나 sklaern에서는 xtransformed가 $UmitSigma$입니다.