文章目录
一、求和符号、求积符号
1)在表示求和运算时可以用求和符号(读作“西格玛”)。假设现在我们 要做从1加到100的简单求和运算。
1+2+3+4+···+99+100 等同于:
对于那些不知道要加到多少的情况,可以用n来表示:
前文提到的损失函数:
另外,对集合也可以使用求和符号。比如有下面这样的偶数集合。
G={2,4,6,8,10}
如果要把这个集合G的所有元素相加,表达式可以这样写:
2)表示乘法运算的一个很方便的符号是求积符号(读作“派”)。
1 ×2×3×4···99×100 等同于:
在不知道要乘多少个时,也可以使用n:
二、微分
1. 概念
通过微分,可以得知函数在某个点的斜率,也可以了解函数在瞬间的变化。
设函数为f(x)、h为微小的数,那么函数f(x)在点x的斜率就可以用以下表达式表示:
2. 特性
微分有一些很有用的、值得我们去记住的特性
1)第一个特性是当f(x)=xn时,对它进行微分可以得到以下表达式
2)第二个特性是若有函数f(x)和g(x),以及常数a,那么下述微分表达式成立。它们体现出来的特性被称为线性。
3)第三个特性是与x无关的常数a的微分为0。
4)另外,含有求和符号的表达式的微分在本书中也多次出现。对这种表达式微分时,可以像下面这样交换求和符号和微分运算符的顺序
三、偏微分
1. 介绍
前面我们看到的函数f(x)是只有一个变量x的单变量函数,不过在实际工作中还存在下面这种变量多于两个的多变量函数。
在机器学习的最优化问题中,有多少参数就有多少变量,所以目标函数正是这样的多变量函数。前面我们学习了使用微分,沿着切线的方向一点点移动参数的思路。
以对多变量函数微分时,我们只需关注要微分的变量,把其他变量都当作常数来处理。这种微分的方法就称为偏微分。
2. 举例
通过具体的例子来加深对它的理解。由于包含三个以上变量的函数不容易画成图,所以这里考虑有两个变量的函数的情况
由于有两个变量,所以需要在三维空间内画图。图中左边向内延伸的轴是x1、右边向内延伸的轴是x2,高为h(x1,x2)的值。接下来求这个函数h对x1的偏微分。刚才介绍偏微分时说过,除了关注的变量以外,其他变量都作为常数来处理,换言之就是把变量的值固定。比如把x2固定为x2=1,这样h就会变成只有x1一个变量的函数。
所以h对x1进行偏微分的结果是下面这样的:
虽然在偏微分时微分的运算符由d变为了,但是二者含义是相同的。接下来,我们基于同样的思路,考虑一下h对x2的偏微分。比如将x1固定为x1=1,那么h将成为只有x2一个变量的函数。
这次h变为简单的三次函数了。与对x1偏微分时的做法相同,这次h对x2偏微分的结果如下所示:
像这样只关注要微分的变量,将其他变量全部作为常数来处理,我们就可以知道在这个变量下函数的斜率是多少。考虑到可视化问题,这次我们用只有两个变量的函数进行了说明,但不管变量增加到多少,这个方法都是适用的。
四、复合函数
由多个函数组合而成的函数称为复合函数
比如复合函数f(g(x))对x求微分的情况。直接看这个表达式不太好理解,我们可以像下面这样把函数暂时替换为变量
这样一来,就可以分步骤进行微分。
也就是说,把y对u微分的结果与u对x微分的结果相乘即可。我们实际微分一下试试
每一部分的结果都算好后,剩下的就是相乘了。把u恢复为g(x)就可以得到最终想要的微分结果。
在机器学习领域,对复杂的函数进行微分的情况很多,这时把函数当作由多个简单函数组合而成的复合函数再进行微分,就可以相对简单地完成处理。
五、向量和矩阵
在机器学习领域,为了更高效地处理数值计算,要用到向量和矩阵。首先,向量是把数字纵向排列的数据结构,而矩阵是把数字纵向和横向排列的数据结构。二者分别呈现为下面这样的形式。
常用小写字母表示向量、大写字母表示矩阵,并且都用黑体。另外,向量和矩阵的元素常带有下标。
矩阵分别支持和、差、积的计算。假如有以下两个矩阵A和B,我们来分别计算一下它们的和、差、积。
和与差的计算并不难,只需将各个相应元素相加或相减即可
计算矩阵的积时,需要将左侧矩阵的行与右侧矩阵的列的元素依次相乘,然后将结果加在一起。矩阵的乘法是像下面这几张图这样计算的:
最终A和B的积如下所示:
矩阵中相乘的顺序是很重要的。一般来说,AB和BA的结果是不同的(偶尔会出现结果相同的情况)。此外,矩阵的大小也很重要。在计算矩阵乘积时,左侧矩阵的列数与右侧矩阵的行数必须相同。由于A和B二者都为2×2的矩阵,所以满足这个条件。大小不匹配的矩阵之间的积未被定义,所以下面这种2×2和3×1的矩阵的积无法计算。
接着来了解一下转置。这是像下面这样交换行和列的操作。在文字的右上角加上记号T来表示转置。
在计算向量的积时,经常会像下面这样将一个向量转置之后再计算。这与向量间内积的计算是相同的。
六、几何向量
向量拥有大小和方向。在高中,我们学过像下图这样用箭头来表示的二维向量。
另外,向量可以写成下面这样纵向排列的形式。这样的向量被称为列向量。
用几何语言表示向量的加法和减法,图像如下:
计算在代数上只是做了向量中各元素的相加和相减而已:
内积是向量间定义的一种积运算,对于二维向量来说,可以用下面的表达式来计算:
由于内积的运算符号不是乘法符号“×”, 而是点“·”,所以有时它也被称为点积,计算向量内积之后得到的已经不是向量,而是普通的 数字(大小)了。
另外,假设向量a和b之间的夹角为θ,那么内积也可以这样表示:
这里出现的|a|表示向量的长度。假如有向量a=(a1,a2),那么向量长度可以如下定义:
cos函数的图形如图:
接着了解一下法线。它在用感知机寻找分类数据的分界直线时出现过。法线向量指的是与某条直线相垂直的向量。
假设图中直线的表达式为ax+by+c=0,那么这时的法线向量p为p =(a,b)
七、指数与对数
在计算联合概率或似然时,经常会采用取对数的操作。先来看一下指数,指数具有以下性质,这些性质被称为指数法则。
如果指数部分是变量,那么此时函数就成为了指数函数,其形式是这样的(a>1的情况)
指数函数的逆函数是对数函数,它使用log来表示。
逆函数指的是某个函数交换x和y之后的函数。它的图形是将原函数先顺时针旋转90度,再左右翻转后的图形。设横轴为x、纵轴为y,那么实际的对数函数的图形就是这样的(a>1的情况)
表达式中a的部分被称为底,其中以自然常数(用e表示的值为2.7182...的常数)为底的对数被称为自然对数。在自然对数中常常会像下面这样省略底,将对数简单地写为log 或者ln的形式。
对数函数具有以下性质:
此外对数函数的微分如下所示:
底为e的自然对数其微分结果如下所示:
推导过程: