【期末复习】计科深度学习速通笔记 考前持续更新中

发布于:2025-06-21 ⋅ 阅读:(19) ⋅ 点赞:(0)

以下PPT的内容不考:
第06讲,间隔损失,
第24讲,对抗与防御,
第25讲,可解释
填空,单选,名词解释,计算解答
24,20,16,40
BP复杂的推导计算不考
万能近似定理不考
GRU,highway net不考
shufflenet,efficientnet,不考
程序不考
domain adaptation那儿的那些的JAN,DAN,DANN,MADA等基本不考
牛顿法不用看
元学习那儿具体方法(maml, reptile)不用看,大致理解元学习是干啥的即可
VAE的推导不用看,理解VAE的思想
EM算法不考

深度前馈网络(BP)

J:损失函数
W i j ( l ) W_{ij}^{(l)} Wij(l):第L层的第j个神经元到下一层第i个神经元的权重参数
z ( l ) z^{(l)} z(l):加权求和的值
a ( l ) a^{(l)} a(l):激活值
在这里插入图片描述
反向传播过程:使用损失函数对L-1层的权重求偏导,通过上下乘一个Z(加权求和的输出 激活前的值),可被分解为两部分:损失函数对激活前的值求偏导 x 激活前的值对权重求偏导(等于前一层的输出a)。
在这里插入图片描述
对于更前面的层求偏导,如下:
在这里插入图片描述
补充:使用计算图进行反向传播求偏导。(有空了补上吧)

梯度消失和梯度爆炸:
权重w的绝对值一般在0-1左右,当网络层数过深时,>1会导致梯度爆炸,<1会导致梯度消失。其实本质上就是计算的精度达不到了,所以要避免这种现象的发生。
在这里插入图片描述

来一道题做做:
在这里插入图片描述
在这里插入图片描述

卷积神经网络

padding -> matmul -> pooling
卷积输出计算:OH = (H + 2P - FH / S) + 1
卷积参数估计:(考试不考)
卷积神经网络具有的三个显著特点:局部感知、权重共享、池化运算(下采样)。

Advanced CNN

一些历史的经典的网络:
LeNet
AlexNet
VGG
NIN:MLP Convolution Layers(1x1卷积)、Global Average Pooling
GoogleNet:多尺度多层次滤波
ResNet:引入残差链接,缓解过拟合。引入残差后的映射对输出的变化更敏感。
DenseNet:resnet是元素级相加,densenet是每个层都会与前面所有
层通道级相加(concat)。

一些trick:
dropout

经典的激活函数:ReLU
以下是resnet论文中的网络定义,需要掌握通过该表绘制出网络结构图。
在这里插入图片描述

Light Weight CNN

MLP-Mixer:对图像切patch形成n x d,先在token间的每个通道做MLP,再在每个token间做MLP,其中使用了残差链接和LayerNorm

MobileNet:用 Depthwise Separable Convolution(深度可分离卷积) 来代替传统卷积,大幅减少计算量和参数数量。理论上是每一个channel使用一个卷积核,concat然后使用N个1x1卷积核,实际上就是使用一个卷积核代替N个卷积核,然后使用N个1x1卷积映射到N个channel上。效果是M x H x W -> N x H x W。参数量: K x K x M x N -> K x K x M + 1 x 1 x N

SqueezeNet: 使用 “Fire 模块” 大幅减少参数量。大范围使用 1×1 卷积、减少输入 3×3 卷积的通道数(通过 squeeze)、将最后的全连接层替换为全局平均池化。

SE-Net:通过为每个通道学习一个权重(注意力系数)来强调重要通道、抑制无关通道,提升模型性能,几乎无额外计算代价。其实就是通道注意力。

CondenseNet:使用稀疏连接 + group convolution + 逐步剪枝,构建出高效又紧凑的网络结构。Learned Group Convolution(LGC)设有 G 组,每组选择 k 个最重要的输入通道 → 其他通道连接被永久删除。到了后期,网络中某些卷积层已经只连接了极少数重要通道。

正则化

所有损害优化的方法都是正则化(如增加L1/L2约束、干扰优化过程等),优化和正则化的统一目标是期望风险最小化。

L1/L2正则化:在这里插入图片描述
权重衰减(weight decay)

数据增强:Rotation、Flip、Zoom In/Out、Shift、Noise

早停(Early Stop):使用验证集提前终止。

稀疏表示:希望在误差最小的同时,用尽可能少的基向量(字典)去表示每个图像 patch。
在这里插入图片描述
左边是重建损失 旨在尽可能还原输入,右边是正则化项 旨在稀疏。

优化

海森矩阵:二阶导组成的矩阵。全正:局部极小值,全负:局部极大值,有正有负:鞍点。
基本算法:随机梯度下降
momentum:主要解决了两个问题,Hessian矩阵的病态条件和随机梯度的方差。

参数的初始化策略:高斯初始化、Xavier初始化(均匀分布)

数据的初始化(预处理):标准归一化、缩放归一化

内部的归一化:BatchNorm、LayNorm、WeightNorm、LocalResponseNorm。

自适应学习率算法:Adagrad、RMSProp、Adam

一些常见的Normalization:
在这里插入图片描述

序列建模:循环的递归网络

RNN网络图:
在这里插入图片描述
Deep RNN(图中是 垂直堆叠的多层 RNN,也叫 RNN stacking):
在这里插入图片描述
双向RNN:
在这里插入图片描述
RNN存在的问题:长期依赖、梯度消失

应用:句子生成
在这里插入图片描述
可控生成
在这里插入图片描述
seq to seq
在这里插入图片描述

Swin-transformer

架构图:
在这里插入图片描述
核心思想:

  1. 局部注意力:只对周围7x7的patch做self-attention,而不是ViT的所有patch做self-attention。
  2. 滑动窗口:SW-MSA(滑动窗口注意力),将前一层的窗口平移(shift)一半窗口大小重新划分窗口,再次执行窗口内 attention。加速计算示意图:
    在这里插入图片描述

Auto-Encoder

核心思想:
在这里插入图片描述
Deep Auto-encoder:
在这里插入图片描述
在这里插入图片描述
在文本检索中的应用:
在这里插入图片描述
逐层预训练 Autoencoder – Pre-training DNN:在训练深层神经网络(DNN)时,先用自编码器(Autoencoder)进行逐层预训练,这是在深度学习早期(尤其在 2006~2012 年)非常重要的一种无监督预训练方法。在标签信息较少的时候非常适用。(疑问:为什么要一层一层的去做autoencoder而不是直接把除了最后一个head层的其他层一起拿过去做autoencoder?容易收敛更稳定、中间层的语义信息好)
在这里插入图片描述
应用:图像生成、图像检索

稀疏自编码:在这里插入图片描述

降噪自编码:
在这里插入图片描述
收缩自编码:
在这里插入图片描述
我们希望学习到的表示(latent code)对输入的小扰动不敏感,也就是:

相似输入 → 相似编码
特征空间应该具有“平滑性”和“局部一致性”

第一项:保持自编码器的重建能力(不能忘了目标)
第二项:限制编码器对输入的敏感性 → 让小扰动不会在 latent space 中放大

在这里插入图片描述

自监督学习:SSL

一些经典的方法对比图:
在这里插入图片描述
end-to-end:

别的学校的题

一:名词解释
集成学习:集成学习是一种通过组合多个模型提升整体性能的方法,常见策略包括 Bagging(如随机森林)、Boosting(如 AdaBoost、XGBoost)、Stacking。它能降低模型的偏差和方差。
注意力机制:注意力机制模仿人类聚焦某些关键信息的能力,通过分配不同权重来聚焦重要输入,常用于序列建模(如 Transformer),其核心计算为:请添加图片描述
自编码器:种无监督学习方法,由编码器 + 解码器组成,学习输入的压缩表示:ncoder:将输入编码为低维表示;Decoder:从低维重建输入=。用于降维、图像去噪、生成模型等任务。
残差连接:残差连接是 ResNet 提出的结构,通过跳跃连接将输入直接加到输出。y=x + f(x)
限制玻尔兹曼机:是一种无向图模型,由可见层和隐藏层组成,无层内连接。主要用于特征学习、预训练,能表示复杂的概率分布。训练通过对比散度(Contrastive Divergence)。
二:简答题

  1. 卷积神经网络都有哪些模块,作用是什么.
    卷积层(Conv) 提取局部空间特征
    激活函数(ReLU) 引入非线性
    池化层(Pooling) 降维、增强鲁棒性
    批归一化(BatchNorm) 加快收敛、稳定训练
    全连接层(FC) 融合特征,做分类或回归
    Dropout 防止过拟合
    Softmax 多分类输出概率分布

  2. 简述GAN的思想和训练过程

  3. 讲讲ResNet,为什么残差连接能解决梯度消失.
    残差连接允许梯度直接传播回浅层,避免了链式求导中反复缩小的乘积
    实际上 ResNet 学的是残差 :f(x)=y−x,更易优化
    结果:能训练上百层甚至更深的网络

  4. 讲讲Transformer,Swin Transformer做了哪些改进
    Transformer 结构核心:多头自注意力(MHA)、残差连接、LayerNorm、前馈网络(FFN)、编码器-解码器结构(NLP)
    swin- transformer改进点:
    局部注意力 W-MSA 限制 attention 在小窗口
    滑动窗口(SW-MSA) 实现跨窗口通信
    层级结构 模仿 CNN 的下采样,适配 dense prediction
    可扩展性 从分类扩展到检测、分割任务

  5. 简述RCNN,Fast RCNN, Faster RCNN的发展
    三:计算题,计算卷积核卷积后结果。
    四:设计题,设计模型解决两个任务:

  6. 图像超分辨率

  7. 神经机器翻译


网站公告

今日签到

点亮在社区的每一天
去签到