創建此倉庫的動機是感受對數學的恐懼,並在機器學習,深度學習和AI的其他領域中做任何您想做的事情。
在此存儲庫中,我展示了代數,微積分,統計和概率的基礎知識。因此,在EDX課程中提供的Python筆記本中嘗試此代碼。
在此存儲庫中,您還將學習必不可少的庫,例如numpy,pandas,matplotlib ...
當我發現這些材料有用時,我將上傳新材料,您也可以幫助我保持此倉庫的新鮮。
機器學習的數學很重要的原因有很多,我將在下面重點介紹其中的一些:
選擇正確的算法,其中包括考慮準確性,訓練時間,模型複雜性,參數數量和功能數量。
選擇參數設置和驗證策略。
通過了解偏見 - 差異權衡來確定不足和過度擬合。
估計正確的置信區間和不確定性。
一位科學家Skyler Speakman最近說:“線性代數是21世紀的數學”,我完全同意這一說法。在ML中,線性代數到處出現。 Topics such as Principal Component Analysis (PCA), Singular Value Decomposition (SVD), Eigendecomposition of a matrix, LU Decomposition, QR Decomposition/Factorization, Symmetric Matrices, Orthogonalization & Orthonormalization, Matrix Operations, Projections, Eigenvalues & Eigenvectors, Vector Spaces and Norms需要了解用於機器學習的優化方法。線性代數的驚人之處在於,有很多在線資源。我一直說,由於互聯網上可用的大量資源,傳統的教室正在死亡。我最喜歡的線性代數課程是MIT課程(Gilbert Strang教授)提供的一門課程。
機器學習和統計數據不是很大不同。實際上,最近有人將機器學習定義為“在Mac上進行統計學”。 ML所需的一些基本統計和概率理論是組合,概率規則和公理,貝葉斯的定理,隨機變量,方差和期望,條件和關節分佈,標準分佈,標準分佈(Bernoulli,bernoulli,二項式,多項式,統一,統一和矩,矩和矩,時刻),時刻生成功能,最大似然估計(MLE),先驗和後驗,最大後驗估計(MAP)和採樣方法。
一些必要的主題包括差分和積分計算,部分導數,矢量值函數,方向梯度,Hessian,Jacobian,Laplacian和Lagrangian分佈。
這對於理解機器學習算法的計算效率和可擴展性以及利用數據集中的稀疏性很重要。需要了解數據結構(二進制樹,哈希,堆,堆棧等),動態編程,隨機和sublinear算法,圖形,梯度/隨機下降和原始偶型方法。
這包括上述四個主要領域未涵蓋的其他數學主題。它們包括真實和復雜的分析(集合和序列,拓撲,度量空間,單值和連續功能,限制,cauchy內核,傅立葉變換),信息理論(熵,信息增益),功能空間和歧管。