很多人问我,学AI和机器学习到底需要掌握哪些数学?今天把我自己走过的路和用过的资源整理出来,希望能帮你少走弯路。
先说结论:三大支柱——统计概率、线性代数、微积分。但更重要的是理解它们为什么重要。
+ 一、统计与概率:与不确定性共处的智慧
现实世界的数据从来都是嘈杂、残缺、充满不确定性的。概率论和统计学赋予我们在混沌中找规律的能力。
从最基础的概念开始:总体与样本。我们永远无法观测到完整的世界,只能通过有限的样本去推断。理解抽样偏差和代表性,直接关系到模型能否泛化。
描述性统计是起点——均值、中位数、众数帮我们把握数据的“中心”在哪里;方差和协方差则告诉我们数据有多“散”、变量之间如何联动。这些看似简单的概念,却是理解损失函数和风险最小化的根基。
随机变量、概率分布、正态分布、二项分布——这些不是抽象的数学游戏,而是我们对数据生成机制的假设。为什么高斯分布无处不在?中心极限定理给出了答案:即使原始数据分布不正态,样本均值也会趋向正态。这个定理是统计推断的基石。
贝叶斯定理值得特别关注。它教会我们一件事:信念应该随证据更新。这不仅是概率公式,更是一种思维方式——在不确定中保持开放、用新信息修正旧认知。现代机器学习中对不确定性的量化,很大程度上植根于此。
最大似然估计则搭建了理论与实践的桥梁:交叉熵损失、均方误差损失,其实都是MLE的自然产物。
+ 二、线性代数:数据与模型的骨架
机器学习里几乎所有计算都是矩阵运算。数据是矩阵,权重是矩阵,梯度是矩阵,激活值还是矩阵。
标量、向量、矩阵、张量——这是从一维到高维的进阶。一张图片是三维张量,一批图片是四维张量。理解这些结构,才能读懂深度学习框架里的每一行代码。
矩阵乘法定义了神经网络的前向传播;转置用于对齐形状;行列式和逆矩阵虽然实践中很少直接计算,但理解它们对把握线性系统的可解性至关重要。
特征值和特征向量描述的是变换的“本质方向”——哪些方向在变换中保持不变,只是被拉伸或压缩。这直接关联到模型的稳定性和收敛性。
SVD和PCA可能是最实用的两个工具。SVD提供数值稳定性和低秩近似;PCA实现降维、去噪、特征提取。它们本质上都在做同一件事:在保留核心信息的前提下,尽可能简化问题。
+ 三、微积分:让机器学会学习
训练模型的本质是优化问题。微积分解释了模型如何学习、学习多快、能否收敛。
导数衡量变化率,梯度指向最陡峭的上升方向。梯度下降就是沿着负梯度方向走,一步步逼近最优解。
高维世界需要更强大的工具:雅可比矩阵处理向量函数的一阶导数,海森矩阵捕捉二阶曲率信息,链式法则则是反向传播的数学基础。
理解损失曲面的地形很关键。局部最小值可能让训练“卡住”,鞍点在高维空间中比想象的更常见,凸性虽然罕见但能保证找到全局最优。
+ 四、我的学习路径
第一步:建立直觉。推荐3Blue1Brown的《线性代数的本质》和《微积分的本质》,用可视化理解抽象概念。
第二步:系统学习。Coursera上帝国理工的《机器学习数学》课程,把线性代数和多变量微积分讲得非常实用。
第三步:夯实统计概率。可汗学院的课程讲解清晰,练习充足。
第四步:连接数学与机器学习。《统计学习导论》这本书完美展示了理论如何落地为真实的模型。
最后:融会贯通。《机器学习数学》这本书把所有概念串联起来,展示它们如何在具体算法中协同工作。
数学从来不是机器学习的门槛,而是打开深层理解的钥匙。与其畏惧,不如拥抱——这条路走通了,你看问题的视角会完全不同。