以下PPT的内容不考:
第06讲,间隔损失,
第24讲,对抗与防御,
第25讲,可解释
填空,单选,名词解释,计算解答
24,20,16,40
BP复杂的推导计算不考
万能近似定理不考
GRU,highway net不考
shufflenet,efficientnet,不考
程序不考
domain adaptation那儿的那些的JAN,DAN,DANN,MADA等基本不考
牛顿法不用看
元学习那儿具体方法(maml, reptile)不用看,大致理解元学习是干啥的即可
VAE的推导不用看,理解VAE的思想
EM算法不考
深度前馈网络(BP)
J:损失函数
W i j ( l ) W_{ij}^{(l)} Wij(l):第L层的第j个神经元到下一层第i个神经元的权重参数
z ( l ) z^{(l)} z(l):加权求和的值
a ( l ) a^{(l)} a(l):激活值
反向传播过程:使用损失函数对L-1层的权重求偏导,通过上下乘一个Z(加权求和的输出 激活前的值),可被分解为两部分:损失函数对激活前的值求偏导 x 激活前的值对权重求偏导(等于前一层的输出a)。
对于更前面的层求偏导,如下:
补充:使用计算图进行反向传播求偏导。(有空了补上吧)
梯度消失和梯度爆炸:
权重w的绝对值一般在0-1左右,当网络层数过深时,>1会导致梯度爆炸,<1会导致梯度消失。其实本质上就是计算的精度达不到了,所以要避免这种现象的发生。
来一道题做做:
卷积神经网络
padding -> matmul -> pooling
卷积输出计算:OH = (H + 2P - FH / S) + 1
卷积参数估计:(考试不考)
卷积神经网络具有的三个显著特点:局部感知、权重共享、池化运算(下采样)。
Advanced CNN
一些历史的经典的网络:
LeNet
AlexNet
VGG
NIN:MLP Convolution Layers(1x1卷积)、Global Average Pooling
GoogleNet:多尺度多层次滤波
ResNet:引入残差链接,缓解过拟合。引入残差后的映射对输出的变化更敏感。
DenseNet:resnet是元素级相加,densenet是每个层都会与前面所有
层通道级相加(concat)。
一些trick:
dropout
经典的激活函数:ReLU
以下是resnet论文中的网络定义,需要掌握通过该表绘制出网络结构图。
Light Weight CNN
MLP-Mixer:对图像切patch形成n x d,先在token间的每个通道做MLP,再在每个token间做MLP,其中使用了残差链接和LayerNorm
MobileNet:用 Depthwise Separable Convolution(深度可分离卷积) 来代替传统卷积,大幅减少计算量和参数数量。理论上是每一个channel使用一个卷积核,concat然后使用N个1x1卷积核,实际上就是使用一个卷积核代替N个卷积核,然后使用N个1x1卷积映射到N个channel上。效果是M x H x W -> N x H x W。参数量: K x K x M x N -> K x K x M + 1 x 1 x N
SqueezeNet: 使用 “Fire 模块” 大幅减少参数量。大范围使用 1×1 卷积、减少输入 3×3 卷积的通道数(通过 squeeze)、将最后的全连接层替换为全局平均池化。
SE-Net:通过为每个通道学习一个权重(注意力系数)来强调重要通道、抑制无关通道,提升模型性能,几乎无额外计算代价。其实就是通道注意力。
CondenseNet:使用稀疏连接 + group convolution + 逐步剪枝,构建出高效又紧凑的网络结构。Learned Group Convolution(LGC)设有 G 组,每组选择 k 个最重要的输入通道 → 其他通道连接被永久删除。到了后期,网络中某些卷积层已经只连接了极少数重要通道。
正则化
所有损害优化的方法都是正则化(如增加L1/L2约束、干扰优化过程等),优化和正则化的统一目标是期望风险最小化。
L1/L2正则化:
权重衰减(weight decay)
数据增强:Rotation、Flip、Zoom In/Out、Shift、Noise
早停(Early Stop):使用验证集提前终止。
稀疏表示:希望在误差最小的同时,用尽可能少的基向量(字典)去表示每个图像 patch。
左边是重建损失 旨在尽可能还原输入,右边是正则化项 旨在稀疏。
优化
海森矩阵:二阶导组成的矩阵。全正:局部极小值,全负:局部极大值,有正有负:鞍点。
基本算法:随机梯度下降
momentum:主要解决了两个问题,Hessian矩阵的病态条件和随机梯度的方差。
参数的初始化策略:高斯初始化、Xavier初始化(均匀分布)
数据的初始化(预处理):标准归一化、缩放归一化
内部的归一化:BatchNorm、LayNorm、WeightNorm、LocalResponseNorm。
自适应学习率算法:Adagrad、RMSProp、Adam
一些常见的Normalization:
序列建模:循环的递归网络
RNN网络图:
Deep RNN(图中是 垂直堆叠的多层 RNN,也叫 RNN stacking):
双向RNN:
RNN存在的问题:长期依赖、梯度消失
应用:句子生成
可控生成
seq to seq
Swin-transformer
架构图:
核心思想:
- 局部注意力:只对周围7x7的patch做self-attention,而不是ViT的所有patch做self-attention。
- 滑动窗口:SW-MSA(滑动窗口注意力),将前一层的窗口平移(shift)一半窗口大小重新划分窗口,再次执行窗口内 attention。加速计算示意图:
Auto-Encoder
核心思想:
Deep Auto-encoder:
在文本检索中的应用:
逐层预训练 Autoencoder – Pre-training DNN:在训练深层神经网络(DNN)时,先用自编码器(Autoencoder)进行逐层预训练,这是在深度学习早期(尤其在 2006~2012 年)非常重要的一种无监督预训练方法。在标签信息较少的时候非常适用。(疑问:为什么要一层一层的去做autoencoder而不是直接把除了最后一个head层的其他层一起拿过去做autoencoder?容易收敛更稳定、中间层的语义信息好)
应用:图像生成、图像检索
稀疏自编码:
降噪自编码:
收缩自编码:
我们希望学习到的表示(latent code)对输入的小扰动不敏感,也就是:
相似输入 → 相似编码
特征空间应该具有“平滑性”和“局部一致性”
第一项:保持自编码器的重建能力(不能忘了目标)
第二项:限制编码器对输入的敏感性 → 让小扰动不会在 latent space 中放大
自监督学习:SSL
一些经典的方法对比图:
end-to-end:
别的学校的题
一:名词解释
集成学习:集成学习是一种通过组合多个模型提升整体性能的方法,常见策略包括 Bagging(如随机森林)、Boosting(如 AdaBoost、XGBoost)、Stacking。它能降低模型的偏差和方差。
注意力机制:注意力机制模仿人类聚焦某些关键信息的能力,通过分配不同权重来聚焦重要输入,常用于序列建模(如 Transformer),其核心计算为:
自编码器:种无监督学习方法,由编码器 + 解码器组成,学习输入的压缩表示:ncoder:将输入编码为低维表示;Decoder:从低维重建输入=。用于降维、图像去噪、生成模型等任务。
残差连接:残差连接是 ResNet 提出的结构,通过跳跃连接将输入直接加到输出。y=x + f(x)
限制玻尔兹曼机:是一种无向图模型,由可见层和隐藏层组成,无层内连接。主要用于特征学习、预训练,能表示复杂的概率分布。训练通过对比散度(Contrastive Divergence)。
二:简答题
卷积神经网络都有哪些模块,作用是什么.
卷积层(Conv) 提取局部空间特征
激活函数(ReLU) 引入非线性
池化层(Pooling) 降维、增强鲁棒性
批归一化(BatchNorm) 加快收敛、稳定训练
全连接层(FC) 融合特征,做分类或回归
Dropout 防止过拟合
Softmax 多分类输出概率分布简述GAN的思想和训练过程
讲讲ResNet,为什么残差连接能解决梯度消失.
残差连接允许梯度直接传播回浅层,避免了链式求导中反复缩小的乘积
实际上 ResNet 学的是残差 :f(x)=y−x,更易优化
结果:能训练上百层甚至更深的网络讲讲Transformer,Swin Transformer做了哪些改进
Transformer 结构核心:多头自注意力(MHA)、残差连接、LayerNorm、前馈网络(FFN)、编码器-解码器结构(NLP)
swin- transformer改进点:
局部注意力 W-MSA 限制 attention 在小窗口
滑动窗口(SW-MSA) 实现跨窗口通信
层级结构 模仿 CNN 的下采样,适配 dense prediction
可扩展性 从分类扩展到检测、分割任务简述RCNN,Fast RCNN, Faster RCNN的发展
三:计算题,计算卷积核卷积后结果。
四:设计题,设计模型解决两个任务:图像超分辨率
神经机器翻译