创建此仓库的动机是感受对数学的恐惧,并在机器学习,深度学习和AI的其他领域中做任何您想做的事情。
在此存储库中,我展示了代数,微积分,统计和概率的基础知识。因此,在EDX课程中提供的Python笔记本中尝试此代码。
在此存储库中,您还将学习必不可少的库,例如numpy,pandas,matplotlib ...
当我发现这些材料有用时,我将上传新材料,您也可以帮助我保持此仓库的新鲜。
机器学习的数学很重要的原因有很多,我将在下面重点介绍其中的一些:
选择正确的算法,其中包括考虑准确性,训练时间,模型复杂性,参数数量和功能数量。
选择参数设置和验证策略。
通过了解偏见 - 差异权衡来确定不足和过度拟合。
估计正确的置信区间和不确定性。
一位科学家Skyler Speakman最近说:“线性代数是21世纪的数学”,我完全同意这一说法。在ML中,线性代数到处出现。 Topics such as Principal Component Analysis (PCA), Singular Value Decomposition (SVD), Eigendecomposition of a matrix, LU Decomposition, QR Decomposition/Factorization, Symmetric Matrices, Orthogonalization & Orthonormalization, Matrix Operations, Projections, Eigenvalues & Eigenvectors, Vector Spaces and Norms需要了解用于机器学习的优化方法。线性代数的惊人之处在于,有很多在线资源。我一直说,由于互联网上可用的大量资源,传统的教室正在死亡。我最喜欢的线性代数课程是MIT课程(Gilbert Strang教授)提供的一门课程。
机器学习和统计数据不是很大不同。实际上,最近有人将机器学习定义为“在Mac上进行统计学”。 ML所需的一些基本统计和概率理论是组合,概率规则和公理,贝叶斯的定理,随机变量,方差和期望,条件和关节分布,标准分布,标准分布(Bernoulli,bernoulli,二项式,多项式,统一,统一和矩,矩和矩,时刻),时刻生成功能,最大似然估计(MLE),先验和后部,最大后验估计(MAP)和采样方法。
一些必要的主题包括差分和积分计算,部分导数,矢量值函数,方向梯度,Hessian,Jacobian,Laplacian和Lagrangian分布。
这对于理解机器学习算法的计算效率和可扩展性以及利用数据集中的稀疏性很重要。需要了解数据结构(二进制树,哈希,堆,堆栈等),动态编程,随机和sublinear算法,图形,梯度/随机下降和原始偶型方法。
这包括上述四个主要领域未涵盖的其他数学主题。它们包括真实和复杂的分析(集合和序列,拓扑,度量空间,单值和连续功能,限制,cauchy内核,傅立叶变换),信息理论(熵,信息增益),功能空间和歧管。