【期末复习】计科深度学习速通笔记考前持续更新中-EW帮帮网

以下PPT的内容不考：
第06讲，间隔损失，
第24讲，对抗与防御，
第25讲，可解释
填空，单选，名词解释，计算解答
24，20，16，40
BP复杂的推导计算不考
万能近似定理不考
GRU，highway net不考
shufflenet，efficientnet，不考
程序不考
domain adaptation那儿的那些的JAN，DAN，DANN，MADA等基本不考
牛顿法不用看
元学习那儿具体方法(maml, reptile)不用看，大致理解元学习是干啥的即可
VAE的推导不用看，理解VAE的思想
EM算法不考

深度前馈网络（BP）

J：损失函数
$W_{ij}^{(l)}$ ：第L层的第j个神经元到下一层第i个神经元的权重参数
$z^{(l)}$ ：加权求和的值
$a^{(l)}$ ：激活值
在这里插入图片描述
反向传播过程：使用损失函数对L-1层的权重求偏导，通过上下乘一个Z（加权求和的输出激活前的值），可被分解为两部分：损失函数对激活前的值求偏导 x 激活前的值对权重求偏导（等于前一层的输出a）。
在这里插入图片描述
对于更前面的层求偏导，如下：

补充：使用计算图进行反向传播求偏导。（有空了补上吧）

梯度消失和梯度爆炸：
权重w的绝对值一般在0-1左右，当网络层数过深时，>1会导致梯度爆炸，<1会导致梯度消失。其实本质上就是计算的精度达不到了，所以要避免这种现象的发生。
在这里插入图片描述

来一道题做做：
在这里插入图片描述

卷积神经网络

padding -> matmul -> pooling
卷积输出计算：OH = （H + 2P - FH / S） + 1
卷积参数估计：（考试不考）
卷积神经网络具有的三个显著特点：局部感知、权重共享、池化运算（下采样）。

Advanced CNN

一些历史的经典的网络：
LeNet
AlexNet
VGG
NIN：MLP Convolution Layers（1x1卷积）、Global Average Pooling
GoogleNet：多尺度多层次滤波
ResNet：引入残差链接，缓解过拟合。引入残差后的映射对输出的变化更敏感。
DenseNet：resnet是元素级相加，densenet是每个层都会与前面所有
层通道级相加（concat）。

一些trick：
dropout

经典的激活函数：ReLU
以下是resnet论文中的网络定义，需要掌握通过该表绘制出网络结构图。
在这里插入图片描述

Light Weight CNN

MLP-Mixer：对图像切patch形成n x d，先在token间的每个通道做MLP，再在每个token间做MLP，其中使用了残差链接和LayerNorm

MobileNet：用 Depthwise Separable Convolution（深度可分离卷积）来代替传统卷积，大幅减少计算量和参数数量。理论上是每一个channel使用一个卷积核，concat然后使用N个1x1卷积核，实际上就是使用一个卷积核代替N个卷积核，然后使用N个1x1卷积映射到N个channel上。效果是M x H x W -> N x H x W。参数量： K x K x M x N -> K x K x M + 1 x 1 x N

SqueezeNet: 使用 “Fire 模块” 大幅减少参数量。大范围使用 1×1 卷积、减少输入 3×3 卷积的通道数（通过 squeeze）、将最后的全连接层替换为全局平均池化。

SE-Net：通过为每个通道学习一个权重（注意力系数）来强调重要通道、抑制无关通道，提升模型性能，几乎无额外计算代价。其实就是通道注意力。

CondenseNet：使用稀疏连接 + group convolution + 逐步剪枝，构建出高效又紧凑的网络结构。Learned Group Convolution（LGC）设有 G 组，每组选择 k 个最重要的输入通道 → 其他通道连接被永久删除。到了后期，网络中某些卷积层已经只连接了极少数重要通道。

正则化

所有损害优化的方法都是正则化（如增加L1/L2约束、干扰优化过程等），优化和正则化的统一目标是期望风险最小化。

L1/L2正则化：在这里插入图片描述
权重衰减（weight decay）

数据增强：Rotation、Flip、Zoom In/Out、Shift、Noise

早停（Early Stop）：使用验证集提前终止。

稀疏表示：希望在误差最小的同时，用尽可能少的基向量（字典）去表示每个图像 patch。
在这里插入图片描述
左边是重建损失旨在尽可能还原输入，右边是正则化项旨在稀疏。

优化

海森矩阵：二阶导组成的矩阵。全正：局部极小值，全负：局部极大值，有正有负：鞍点。
基本算法：随机梯度下降
momentum：主要解决了两个问题，Hessian矩阵的病态条件和随机梯度的方差。

参数的初始化策略：高斯初始化、Xavier初始化（均匀分布）

数据的初始化（预处理）：标准归一化、缩放归一化

内部的归一化：BatchNorm、LayNorm、WeightNorm、LocalResponseNorm。

自适应学习率算法：Adagrad、RMSProp、Adam

一些常见的Normalization：
在这里插入图片描述

序列建模：循环的递归网络

RNN网络图：
在这里插入图片描述
Deep RNN（图中是垂直堆叠的多层 RNN，也叫 RNN stacking）：

双向RNN：

RNN存在的问题：长期依赖、梯度消失

应用：句子生成
在这里插入图片描述
可控生成

seq to seq

Swin-transformer

架构图：
在这里插入图片描述
核心思想：

局部注意力：只对周围7x7的patch做self-attention，而不是ViT的所有patch做self-attention。
滑动窗口：SW-MSA（滑动窗口注意力），将前一层的窗口平移（shift）一半窗口大小重新划分窗口，再次执行窗口内 attention。加速计算示意图：

Auto-Encoder

核心思想：
在这里插入图片描述
Deep Auto-encoder：

在文本检索中的应用：

逐层预训练 Autoencoder – Pre-training DNN：在训练深层神经网络（DNN）时，先用自编码器（Autoencoder）进行逐层预训练，这是在深度学习早期（尤其在 2006~2012 年）非常重要的一种无监督预训练方法。在标签信息较少的时候非常适用。（疑问：为什么要一层一层的去做autoencoder而不是直接把除了最后一个head层的其他层一起拿过去做autoencoder？容易收敛更稳定、中间层的语义信息好）
在这里插入图片描述
应用：图像生成、图像检索

稀疏自编码：在这里插入图片描述

降噪自编码：
在这里插入图片描述
收缩自编码：

我们希望学习到的表示（latent code）对输入的小扰动不敏感，也就是：

相似输入 → 相似编码
特征空间应该具有“平滑性”和“局部一致性”

第一项：保持自编码器的重建能力（不能忘了目标）
第二项：限制编码器对输入的敏感性 → 让小扰动不会在 latent space 中放大

在这里插入图片描述

自监督学习：SSL

一些经典的方法对比图：
在这里插入图片描述
end-to-end：

别的学校的题

一：名词解释
集成学习：集成学习是一种通过组合多个模型提升整体性能的方法，常见策略包括 Bagging（如随机森林）、Boosting（如 AdaBoost、XGBoost）、Stacking。它能降低模型的偏差和方差。
注意力机制：注意力机制模仿人类聚焦某些关键信息的能力，通过分配不同权重来聚焦重要输入，常用于序列建模（如 Transformer），其核心计算为：请添加图片描述
自编码器：种无监督学习方法，由编码器 + 解码器组成，学习输入的压缩表示：ncoder：将输入编码为低维表示；Decoder：从低维重建输入=。用于降维、图像去噪、生成模型等任务。
残差连接：残差连接是 ResNet 提出的结构，通过跳跃连接将输入直接加到输出。y=x + f(x)
限制玻尔兹曼机：是一种无向图模型，由可见层和隐藏层组成，无层内连接。主要用于特征学习、预训练，能表示复杂的概率分布。训练通过对比散度（Contrastive Divergence）。
二：简答题

卷积神经网络都有哪些模块，作用是什么.
卷积层（Conv）提取局部空间特征
激活函数（ReLU）引入非线性
池化层（Pooling）降维、增强鲁棒性
批归一化（BatchNorm）加快收敛、稳定训练
全连接层（FC）融合特征，做分类或回归
Dropout 防止过拟合
Softmax 多分类输出概率分布
简述GAN的思想和训练过程
讲讲ResNet，为什么残差连接能解决梯度消失.
残差连接允许梯度直接传播回浅层，避免了链式求导中反复缩小的乘积
实际上 ResNet 学的是残差：f(x)=y−x，更易优化
结果：能训练上百层甚至更深的网络
讲讲Transformer，Swin Transformer做了哪些改进
Transformer 结构核心：多头自注意力（MHA）、残差连接、LayerNorm、前馈网络（FFN）、编码器-解码器结构（NLP）
swin- transformer改进点：
局部注意力 W-MSA 限制 attention 在小窗口
滑动窗口（SW-MSA）实现跨窗口通信
层级结构模仿 CNN 的下采样，适配 dense prediction
可扩展性从分类扩展到检测、分割任务
简述RCNN，Fast RCNN, Faster RCNN的发展
三：计算题，计算卷积核卷积后结果。
四：设计题，设计模型解决两个任务：
图像超分辨率
神经机器翻译

【期末复习】计科深度学习速通笔记考前持续更新中

深度前馈网络（BP）

卷积神经网络

Advanced CNN

Light Weight CNN

正则化

优化

序列建模：循环的递归网络

Swin-transformer

Auto-Encoder

自监督学习：SSL

别的学校的题

网站公告

今日签到

热门文章

最新发布

【期末复习】计科深度学习速通笔记 考前持续更新中

深度前馈网络（BP）

卷积神经网络

Advanced CNN

Light Weight CNN

正则化

优化

序列建模：循环的递归网络

Swin-transformer

Auto-Encoder

自监督学习：SSL

别的学校的题

网站公告

今日签到

热门文章

最新发布

【期末复习】计科深度学习速通笔记考前持续更新中