机器学习中的数学知识

发布于：2025-03-29 ⋅ 阅读:(160) ⋅ 点赞:(0)

文章目录

一、求和符号、求积符号

三、偏微分

四、复合函数

五、向量和矩阵

六、几何向量

七、指数与对数

一、求和符号、求积符号

1）在表示求和运算时可以用求和符号 $\sum$ （读作“西格玛”）。假设现在我们要做从1加到100的简单求和运算。

1+2+3+4+···+99+100 等同于： $\sum_{i=1}^{100}i$

对于那些不知道要加到多少的情况，可以用n来表示: $\sum_{i=1}^{n}i$

前文提到的损失函数：

另外，对集合也可以使用求和符号。比如有下面这样的偶数集合。

G={2,4,6,8,10}

如果要把这个集合G的所有元素相加，表达式可以这样写：

2）表示乘法运算的一个很方便的符号是求积符号 $\prod$ （读作“派”）。

1 ×2×3×4···99×100 等同于： $\prod_{i=1}^{100}i$

在不知道要乘多少个时，也可以使用n： $\prod_{i=1}^{n}i$

二、微分

1. 概念

通过微分，可以得知函数在某个点的斜率，也可以了解函数在瞬间的变化。

设函数为f(x)、h为微小的数，那么函数f(x)在点x的斜率就可以用以下表达式表示：

2. 特性

微分有一些很有用的、值得我们去记住的特性

1）第一个特性是当f(x)=xn时，对它进行微分可以得到以下表达式

2）第二个特性是若有函数f(x)和g(x)，以及常数a，那么下述微分表达式成立。它们体现出来的特性被称为线性。

3）第三个特性是与x无关的常数a的微分为0。

4）另外，含有求和符号的表达式的微分在本书中也多次出现。对这种表达式微分时，可以像下面这样交换求和符号和微分运算符的顺序

三、偏微分

1. 介绍

前面我们看到的函数f(x)是只有一个变量x的单变量函数，不过在实际工作中还存在下面这种变量多于两个的多变量函数。

在机器学习的最优化问题中，有多少参数就有多少变量，所以目标函数正是这样的多变量函数。前面我们学习了使用微分，沿着切线的方向一点点移动参数的思路。

以对多变量函数微分时，我们只需关注要微分的变量，把其他变量都当作常数来处理。这种微分的方法就称为偏微分。

2. 举例

通过具体的例子来加深对它的理解。由于包含三个以上变量的函数不容易画成图，所以这里考虑有两个变量的函数的情况

由于有两个变量，所以需要在三维空间内画图。图中左边向内延伸的轴是x1、右边向内延伸的轴是x2，高为h(x1,x2)的值。接下来求这个函数h对x1的偏微分。刚才介绍偏微分时说过，除了关注的变量以外，其他变量都作为常数来处理，换言之就是把变量的值固定。比如把x2固定为x2=1，这样h就会变成只有x1一个变量的函数。

所以h对x1进行偏微分的结果是下面这样的：

虽然在偏微分时微分的运算符由d变为了 $\partial$ ，但是二者含义是相同的。接下来，我们基于同样的思路，考虑一下h对x2的偏微分。比如将x1固定为x1=1，那么h将成为只有x2一个变量的函数。

这次h变为简单的三次函数了。与对x1偏微分时的做法相同，这次h对x2偏微分的结果如下所示：

像这样只关注要微分的变量，将其他变量全部作为常数来处理，我们就可以知道在这个变量下函数的斜率是多少。考虑到可视化问题，这次我们用只有两个变量的函数进行了说明，但不管变量增加到多少，这个方法都是适用的。

四、复合函数

由多个函数组合而成的函数称为复合函数

比如复合函数f(g(x))对x求微分的情况。直接看这个表达式不太好理解，我们可以像下面这样把函数暂时替换为变量

这样一来，就可以分步骤进行微分。

也就是说，把y对u微分的结果与u对x微分的结果相乘即可。我们实际微分一下试试

每一部分的结果都算好后，剩下的就是相乘了。把u恢复为g(x)就可以得到最终想要的微分结果。

在机器学习领域，对复杂的函数进行微分的情况很多，这时把函数当作由多个简单函数组合而成的复合函数再进行微分，就可以相对简单地完成处理。

五、向量和矩阵

在机器学习领域，为了更高效地处理数值计算，要用到向量和矩阵。首先，向量是把数字纵向排列的数据结构，而矩阵是把数字纵向和横向排列的数据结构。二者分别呈现为下面这样的形式。

常用小写字母表示向量、大写字母表示矩阵，并且都用黑体。另外，向量和矩阵的元素常带有下标。

矩阵分别支持和、差、积的计算。假如有以下两个矩阵A和B，我们来分别计算一下它们的和、差、积。

和与差的计算并不难，只需将各个相应元素相加或相减即可

计算矩阵的积时，需要将左侧矩阵的行与右侧矩阵的列的元素依次相乘，然后将结果加在一起。矩阵的乘法是像下面这几张图这样计算的：

最终A和B的积如下所示：

矩阵中相乘的顺序是很重要的。一般来说，AB和BA的结果是不同的（偶尔会出现结果相同的情况）。此外，矩阵的大小也很重要。在计算矩阵乘积时，左侧矩阵的列数与右侧矩阵的行数必须相同。由于A和B二者都为2×2的矩阵，所以满足这个条件。大小不匹配的矩阵之间的积未被定义，所以下面这种2×2和3×1的矩阵的积无法计算。

接着来了解一下转置。这是像下面这样交换行和列的操作。在文字的右上角加上记号T来表示转置。

在计算向量的积时，经常会像下面这样将一个向量转置之后再计算。这与向量间内积的计算是相同的。

六、几何向量

向量拥有大小和方向。在高中，我们学过像下图这样用箭头来表示的二维向量。

另外，向量可以写成下面这样纵向排列的形式。这样的向量被称为列向量。

用几何语言表示向量的加法和减法，图像如下：

计算在代数上只是做了向量中各元素的相加和相减而已：

内积是向量间定义的一种积运算，对于二维向量来说，可以用下面的表达式来计算：

由于内积的运算符号不是乘法符号“×”，而是点“·”，所以有时它也被称为点积，计算向量内积之后得到的已经不是向量，而是普通的数字（大小）了。

另外，假设向量a和b之间的夹角为θ，那么内积也可以这样表示：

这里出现的|a|表示向量的长度。假如有向量a=(a1,a2)，那么向量长度可以如下定义：

cos函数的图形如图：

接着了解一下法线。它在用感知机寻找分类数据的分界直线时出现过。法线向量指的是与某条直线相垂直的向量。

假设图中直线的表达式为ax+by+c=0，那么这时的法线向量p为p =(a,b)

七、指数与对数

在计算联合概率或似然时，经常会采用取对数的操作。先来看一下指数，指数具有以下性质，这些性质被称为指数法则。

如果指数部分是变量，那么此时函数就成为了指数函数，其形式是这样的（a>1的情况）

指数函数的逆函数是对数函数，它使用log来表示。

逆函数指的是某个函数交换x和y之后的函数。它的图形是将原函数先顺时针旋转90度，再左右翻转后的图形。设横轴为x、纵轴为y，那么实际的对数函数的图形就是这样的（a>1的情况）

表达式中a的部分被称为底，其中以自然常数（用e表示的值为2.7182...的常数）为底的对数被称为自然对数。在自然对数中常常会像下面这样省略底，将对数简单地写为log 或者ln的形式。

对数函数具有以下性质：

此外对数函数的微分如下所示：

底为e的自然对数其微分结果如下所示：

推导过程：