神经网络知识点整理-EW帮帮网

机器学习流程
- 数据获取：收集结构化或非结构化数据（如CIFAR-10数据集，含5万张32x32训练图像、10类标签）。
- 特征工程：
  - 文本数据：分词、词袋模型（BOW）、N-Gram。
  - 图像数据：标准化（均值/方差）、边缘检测（传统方法如Sobel算子）。
- 模型构建：选择算法（如线性回归、K近邻、神经网络），定义损失函数与优化目标。
- 评估与应用：划分训练集、验证集、测试集，使用交叉验证调参，部署模型至实际场景。
特征工程核心作用
- 数据特征决定模型上限：例如图像分类中，边缘特征（传统方法）或深度特征（卷积网络）的提取。
- 预处理技术：
  - 标准化： $X_{norm} = \frac{X-\mu}{\sigma}$
  - 缺失值处理：删除或填充（均值/中位数）。
- 特征表示：
  - 文本：TF-IDF向量、词嵌入（Word2Vec）。
  - 图像：像素矩阵、颜色通道分离（RGB）。

线性函数与得分计算
- 公式：
  $f(x,W)=Wx+b \quad$ （输入 $x \in \mathbb{R}^d$ ,权重 $W \in \mathbb{R}^{k \times d}$ ）
- 示例：CIFAR-10分类任务中，输入为3072维（32x32x3），输出10类得分，权重矩阵大小为 10×307210×3072。
损失函数（Loss Function）
- 多类SVM损失（Hinge Loss）：
  $L_i = \sum_{j \neq y_i} \max(0, s_j - s_{y_i} + 1)$
- 计算示例：若真实类别得分 $s_{y_i} = 3.2$ ，其他类别得分 $s_j = 5.1, -1.7$ ，则损失为 $\max(0, 5.1 - 3.2 + 1) + \max(0, -1.7 - 3.2 + 1) = 2.9$ 。
- 交叉熵损失（Softmax）：
  $Li=-\log\left(\frac{e^{s_{y_i}}}{\sum_j e^{s_j}}\right)$
- 输出概率化：Softmax将得分转换为概率分布（归一化指数函数）。

梯度下降与反向传播

梯度下降类型：

类型	公式	特点
批量梯度下降	$\theta_j := \theta_j - \alpha\frac{1}{m}\sum_{i=1}^m(h_0(x^{(i)}) - y^{(i)}x_j^{(i)})$	全局最优但计算量大
随机梯度下降	$\theta_j := \theta_j + \alpha(y^{(i)} - h_\theta(x^{(i)}))x_j^{(i)}$	高效但噪声大
小批量梯度下降	$\theta_j := \theta_j - \alpha\frac{1}{B}\sum_{k=1}^B(h_\theta(x^{(k)}) - y^{(k)}x_j^{(k)})$	平衡效率与稳定性（B=32/64）

反向传播：
- 链式法则：逐层计算梯度，例如Sigmoid激活函数的导数为 $\frac{\partial z}{\partial x} = \sigma(x)(1-\sigma(x))$
- 计算图分解：将复杂运算拆分为加法门、乘法门、MAX门等基本单元，分别计算局部梯度。

核心操作与组件

卷积层：
- 功能：提取局部特征，参数共享减少计算量。
- 输出尺寸计算：
  $H_{out} = \frac{H_{in} - F + 2P}{S} + 1$ （F: 卷积核尺寸, P: 填充, S: 步长）
- 示例：输入32x32x3，使用10个5x5x3卷积核（步长1，填充2），输出32x32x10。
池化层：
- 最大池化：取窗口内最大值，减少特征图尺寸（如2x2池化，步长2，尺寸减半）。
- 平均池化：取窗口内平均值，保留整体信息。

激活函数：

类型	公式	特点
ReLU	$f(x) = max(0,x)$	缓解梯度消失，计算高效
Sigmoid	$f(x) = \frac{1}{1+e^{-x}}$	输出概率（0~1），易饱和

经典网络架构
- AlexNet：
  - 结构：5卷积层 + 3全连接层。
  - 创新点：首次使用ReLU、Dropout、GPU加速训练。
  - 参数示例：第一层卷积核11x11，步长4，输出55x55x96。
- VGGNet：
  - 核心思想：堆叠3x3小卷积核（参数量更少，非线性更强）。
  - 感受野计算：3层3x3卷积等效于1层7x7卷积，参数量减少33%。
- ResNet：
  - 残差块：解决深层网络退化问题，公式 $H(x) = F(x) + x$ 。
  - 优势：允许训练数百层网络，ImageNet Top-5错误率降至3.57%。
CNN优势
- 参数共享：同一卷积核在整张图像滑动，显著降低参数量。
- 平移不变性：特征检测不受位置影响。
- 层次化特征：
  - 浅层：边缘、纹理（如Gabor滤波器效应）。
  - 深层：语义信息（如物体部件、类别）。

RNN基础
- 结构：隐藏状态 ℎ𝑡ht 传递时序信息。
  $h_t = \sigma(W_hh_{t-1} + W_xx_t + b)$
- 应用场景：文本生成、时间序列预测、机器翻译。
- 缺陷：梯度消失/爆炸，难以捕捉长期依赖。

长短期记忆网络（LSTM）

核心门控机制：

门类型	公式	功能
遗忘门	$f_t = \sigma(W_f[h_{t-1},x_t] + b_f)$	决定丢弃哪些历史信息
输入门	$i_t = \sigma(W_i[h_{t-1},x_t] + b_i)$	更新细胞状态的新信息
输出门	$o_{t}=\sigma\left(W_{o}\left[h_{t-1}, x_{t}\right]+b_{o}\right)$	控制当前隐藏状态的输出

细胞状态更新：
$C_{t}=f_{t} \odot C_{t-1}+i_{t} \odot \tanh \left(W_{C}\left[h_{t-1}, x_{t}\right]+b_{C}\right)$
优势：通过细胞状态长期记忆关键信息，缓解梯度消失。

数据预处理
- 标准化：零均值化（X -= np.mean(X, axis=0)）和归一化（X /= np.std(X, axis=0)）。
- 数据增强：
  - 图像：旋转、裁剪、加噪声。
  - 文本：同义词替换、随机删除。
参数初始化
- Xavier初始化：适应激活函数，保持输入输出方差一致。
  $W\sim\mathcal{N}\left(0,\sqrt{\frac{2}{n_{in}+n_{out}}}\right)$
- He初始化：专为ReLU设计，方差为 $\frac{2}{n_{in}}$ 。
正则化技术
- Dropout：训练时随机丢弃神经元（如丢弃率0.5），减少过拟合。
- L2正则化：惩罚大权重，损失函数添加 $\lambda\sum W_{ij}^{2}$ 。
- 早停法：监控验证集损失，连续多次未改善则终止训练。
超参数选择
- 学习率：初始值常设为0.001，配合学习率衰减（如每10轮减半）。
- 批量大小：权衡内存与梯度稳定性（常用32/64/128）。

计算机视觉
- 图像分类：ResNet在ImageNet上Top-5错误率低于5%。
- 目标检测：Faster R-CNN（两阶段）、YOLO（单阶段实时检测）。
- 图像生成：GAN生成逼真图像，StyleGAN实现可控生成。
自然语言处理
- 机器翻译：Transformer模型（如BERT、GPT-3）取代RNN。
- 情感分析：LSTM捕捉上下文依赖，BERT微调实现高精度。
跨领域应用
- 医疗影像：CNN辅助诊断肺结节、视网膜病变。
- 自动驾驶：CNN处理实时路况，LSTM预测车辆轨迹。

当前挑战
- 计算资源需求：大模型训练依赖高性能GPU/TPU集群。
- 可解释性：黑箱模型决策过程难以解释（如医疗领域）。
未来方向
- 轻量化模型：MobileNet、EfficientNet提升移动端部署效率。
- 自监督学习：利用无标注数据预训练（对比学习、掩码语言模型）。
- 多模态融合：联合处理图像、文本、语音（如CLIP、DALL-E）。

通过持续优化模型架构与训练策略，神经网络将继续推动人工智能在复杂任务中的突破，赋能工业、医疗、交通等领域的智能化升级。

神经网络知识点整理