이 repo를 만드는 동기는 수학에 대한 두려움을 느끼고 기계 학습, 딥 러닝 및 AI의 다른 분야에서하고 싶은 일을하는 것입니다.
이 repo에서 나는 대수, 미적분학, 통계 및 확률의 기초를 보여 주었다. 따라서 EDX 코스에서 제공되는 Python 노트북 에서이 코드를 사용해보십시오.
이 저장소에서는 Numpy, Pandas, Matplotlib와 같은 필수 라이브러리를 배우게됩니다.
나는 그 자료가 유용하다고 생각할 때 새로운 자료를 업로드 할 것입니다. 당신은 또한이 저장소를 신선하게 유지하는 데 도움이 될 수 있습니다.
기계 학습의 수학이 중요한 이유는 여러 가지가 있으며 아래 중 일부를 강조하겠습니다.
정확성, 교육 시간, 모델 복잡성, 매개 변수 수 및 기능 수에 대한 고려 사항을 제공하는 올바른 알고리즘 선택.
매개 변수 설정 및 검증 전략 선택.
바이어스 분산 트레이드 오프를 이해하여 언더 피팅 및 과적으로 식별합니다.
올바른 신뢰 구간과 불확실성을 추정합니다.
과학자 인 Skyler Speakman은 최근“선형 대수는 21 세기의 수학”이라고 말했고 나는 그 진술에 전적으로 동의합니다. ML에서는 선형 대수가 어디에나 나타납니다. 주요 구성 요소 분석 (PCA), 단수 값 분해 (SVD), 매트릭스의 Eigendecomposition, LU 분해, QR 분해/인자화, 대칭 행렬, 직교화 및 직교 정규화, 매트릭스 작업, 예측, EigenValues & Eigenvectors 및 규범과 같은 주제 기계 학습에 사용되는 최적화 방법을 이해하려면 필요합니다. 선형 대수의 놀라운 점은 온라인 리소스가 너무 많다는 것입니다. 나는 항상 인터넷에서 이용할 수있는 방대한 양의 리소스 때문에 전통적인 교실이 죽어 가고 있다고 말했습니다. 내가 가장 좋아하는 선형 대수 코스는 MIT 코스웨어 (Gilbert Strang 교수)가 제공하는 코스입니다.
기계 학습 및 통계는 그다지 다르지 않습니다. 실제로 누군가가 최근 머신 러닝을 'MAC에 대한 통계 수행'으로 정의했습니다. ML에 필요한 기본 통계 및 확률 이론 중 일부는 조합, 확률 규칙 및 공리, 베이 에스 정리, 임의 변수, 분산 및 기대, 조건부 및 관절 분포, 표준 분포 (Bernoulli, Binomial, Multinomial, Uniform and Gaussian), 순간입니다. 함수 생성, 최대 가능성 추정 (MLE), 이전 및 사후, 후방 추정치 최대 (지도) 및 샘플링 방법.
필요한 주제 중 일부에는 차등 및 적분 미적분학, 부분 유도체, 벡터-값 함수, 방향 구배, Hessian, Jacobian, Laplacian 및 Lagrangian 분포가 포함됩니다.
이는 기계 학습 알고리즘의 계산 효율성과 확장 성을 이해하고 데이터 세트의 희소성을 악용하는 데 중요합니다. 데이터 구조 (바이너리 트리, 해싱, 힙, 스택 등), 동적 프로그래밍, 무작위 및 하위 원조 알고리즘, 그래프, 그라디언트/확률 론적 하강 및 원시적 방법에 대한 지식이 필요합니다.
이것은 위에서 설명한 4 가지 주요 영역에서 다루지 않은 다른 수학 주제로 구성됩니다. 여기에는 실제 및 복잡한 분석 (세트 및 시퀀스, 토폴로지, 메트릭 공간, 단일 값 및 연속 기능, 한계, Cauchy 커널, 푸리에 변환), 정보 이론 (엔트로피, 정보 게인), 기능 공간 및 매니 폴드가 포함됩니다.