【白话神经网络(二)】矩阵、CNN、RNN

发布于:2025-03-18 ⋅ 阅读:(14) ⋅ 点赞:(0)

全连接层

回顾前面学过的知识:
一个最简单的神经网络,就是y=wx+b 套上一个激活函数。
如果有多个输入,那就是多个w和x
如果有多个输出,那就再来一行公式,多一组w和b

在这里插入图片描述

要是神经元多了的话,公式密密麻麻的,没有数学的简洁之美,这怎么办呢?其实就是把加减乘除替换成了矩阵运算的写法(这里先忽略一下激活函数)。

在这里插入图片描述

然后我们现在把这些矩阵都替换成新的字母,那么整个公式就化简成了这个样子:

Y =g(WX + b)

不过现在还有个问题,就是神经元的层并没有体现在公式中。假如神经元再多几层怎么办?我们此时抽象一下也别分什么x、y和隐藏层了,就通通用字母a来表示。输入层就当做第0层,用a中括号零来表示,以此类推。
例如第1层的公式如下:

在这里插入图片描述

每一层的神经元的值都是上一层的函数。我们用l表示在第几层,那么最终的通用公式就是:
在这里插入图片描述

到这里,麻烦的加减乘除就替换成了矩阵运算,可以充分利用gpu的并行计算的特性,加速神经网络的训练和推理过程。这就不仅仅是秀写法上的一个操作了。

在这里插入图片描述

回到这个公式和神经网络结构,可以看到这里的每个神经元都与前一层的所有神经元相连。但它其实只是神经网络结构中的一种,叫做全连接层。

在这里插入图片描述

卷积神经网络 CNN(Convolutional Neural Network)

下面先看一下全连接层的问题:

假如我们现在要做个图像识别的模型,假如输入是个30×30的灰度图像。那么平铺展开后喂给输入层的就是900个神经元。假如下一层的神经元的数量是1000个,那么这个全连接层的总参数量就达到了900000,这太大了。

另外,这里仅仅是把输入的图片平谱展开,无法保留像素之间的空间关系。图片稍稍动一下,可能所有神经元都和原来完全不同。但从图片整体上看,可能仅仅是平移或者变暗,这就是不能很好的理解图像的局部模式。

在这里插入图片描述

为了更好的理解图像的局部模式,我们随便在这个图像中取一个3×3的矩阵,这里面的数值就是颜色的灰度值。然后我们再来一个固定的矩阵,把每个对应位置数的值相乘并求和,最终得到一个值是250。
在这里插入图片描述
然后我们再选取一个地方,再次进行这样的运算。最终我们把这种运算方式遍历划过原图像的每个地方,得出的数值形成一个新的图像。这种方式叫做卷积运算。

而刚刚我们这个固定的矩阵叫做卷积核。
卷积核不是一个新的概念,在传统的图像处理领域,卷积核是已知的,可以达到一定的图像处理效果,比如模糊效果、浮雕效果、轮廓效果以及锐化效果等等,就是ps的常规操作。
在这里插入图片描述

在深度学习领域,卷积核的值就是未知的,和神经网络中的其他参数一样,是被训练出来的一组值。

回到刚刚的经典神经网络结构,其实就是把其中一个全连接层替换成了卷积层,这就大大的减少了权重参数的数量,同时还能更有效的捕捉到图片中的一些局部特征,可谓是一举两得。而从公式上看,其实就是把原来的矩阵的标准乘法及差乘替换成了卷积运算。

在这里插入图片描述

那么接下来,我们的神经网络就可以用更抽象、更简洁的图来表示。在图像识别的神经网络结构中,除了卷积层外,通常还有池化层,作用是对卷积层后的特征图像进行降维,减少计算量,同时保留主要特征。这里的卷积层、池化层、全连接层都可以有多个。而这种适用于图像识别领域的神经网络结构,就叫做卷积神经网络 CNN(Convolutional Neural Network)。

在这里插入图片描述

使用卷积神经网络非常方便可视化,我们可以看到训练过程中所训练出的卷积核,从原始图像中提取了什么样的特征,虽然这些都是中间隐藏层的事情,但是却能神奇的观察出一些实际意义,这也是卷积神经网络让人着迷的地方。

总结:
我们把之前一个个加减乘除很麻烦的写法,写成了矩阵的形式。一是为了方便讨论,比如刚刚介绍cnn的时候,就从公式直接看出,就是差乘变成了卷积运算而已。二是可以更好的利用gpu的并行计算,提高效率。

接下来我们把之前默认的那种所有神经元都连起来的形式叫做全连接,进而通过图像识别这个任务意识到了全连接的局限性。接下来我们通过卷积运算代替了全连接层的标准矩阵乘法,一方面使得训练参数大大的减少,另外一方面也更有利于提取图像的局部特征,这就解决了我们一开始说的问题。

最后我们把神经网络结构再次抽象一个层次,原来我们画的各种小圈圈在更高的视角下,其实就是个全连接层而已。那么这些全连接层、卷积层、池化层的组合就构成了卷积神经网络 cnn。

当然卷积神经网络cnn也只是神经网络结构中的一种,而且它有一个致命的局限性,就是它主要用于静态数据,比如说图片。那么如果我们要处理的是时间序列、文本、语音、视频等动态数据,就需要引入另外一种神经网络结构了。

参考:https://www.bilibili.com/video/BV1wXQhY8EJ6/?spm_id_from=333.1387.homepage.video_card.click&vd_source=8066b0fe558a3d040eb762ed70ba335a


网站公告

今日签到

点亮在社区的每一天
去签到