【机器学习&深度学习】非线性激活函数-EW帮帮网

函数	表达式	特点
Sigmoid		输出范围在 (0,1)，易梯度消失
Tanh		输出范围 (-1,1)，中心对称
ReLU		稀疏激活，简单高效，不易梯度消失
LeakyReLU		解决 ReLU “死亡”问题
GELU/Swish	高级激活，适用于深网络	Transformer/BERT 中常用

五、小实验：是否加非线性函数的训练效果

5.1 实验目标

我们要构造一个简单的非线性函数数据集，比如：

然后用两个模型分别去拟合它：

线性模型（不加激活函数）
非线性模型（加 ReLU 或 Tanh 激活函数）

最终对比：预测曲线 vs 原始数据

5.2 实验代码（使用 PyTorch）

【运行条件】

1、安装Anconda；

2、安装PyTorch；

如果想尝试操作该实验，可以去看我的深度学习【环境搭建】，有相关安装教程

【运行依赖】

一次性安装命令（推荐）
pip install torch matplotlib numpy
🔹 如果你是在国内网络环境下，可以用清华源加速安装：
pip install torch matplotlib numpy -i https://pypi.tuna.tsinghua.edu.cn/simple
【依赖库作用】

库名用途说明安装命令

torch PyTorch，构建和训练神经网络 pip install torch

matplotlib 用于绘图，显示预测 vs 实际效果 pip install matplotlib

numpy 数值运算辅助 pip install numpy

库名	用途说明	安装命令
`torch`	PyTorch，构建和训练神经网络	`pip install torch`
`matplotlib`	用于绘图，显示预测 vs 实际效果	`pip install matplotlib`
`numpy`	数值运算辅助	`pip install numpy`

import torch
import torch.nn as nn
import matplotlib.pyplot as plt
import numpy as np

# ==== 解决中文显示问题 ====
plt.rcParams['font.sans-serif'] = ['SimHei']  # 使用黑体
plt.rcParams['axes.unicode_minus'] = False    # 显示负号

# ==== 生成数据 ====
# 构造一个非线性函数数据集：y = sin(x) + 噪声
x = torch.unsqueeze(torch.linspace(-2 * np.pi, 2 * np.pi, 300), dim=1)  # shape: [300, 1]
y = torch.sin(x) + 0.1 * torch.randn(x.size())  # 添加噪声

# ==== 定义线性模型（无激活函数） ====
class LinearNet(nn.Module):
    def __init__(self):
        super().__init__()
        self.model = nn.Sequential(
            nn.Linear(1, 20),
            nn.Linear(20, 1)  # 无激活函数，仍是线性变换
        )
    def forward(self, x):
        return self.model(x)

# ==== 定义非线性模型（含Tanh激活函数） ====
class NonLinearNet(nn.Module):
    def __init__(self):
        super().__init__()
        self.model = nn.Sequential(
            nn.Linear(1, 20),
            nn.Tanh(),        # 引入非线性激活,# 如需切换 ReLU、Sigmoid、Tanh 做对比:换成 nn.ReLU() 或 nn.Sigmoid()
            nn.Linear(20, 1)
        )
    def forward(self, x):
        return self.model(x)

# ==== 实例化两个模型 ====
net_linear = LinearNet()
net_nonlinear = NonLinearNet()

# ==== 损失函数 & 优化器 ====
criterion = nn.MSELoss()
optimizer_linear = torch.optim.Adam(net_linear.parameters(), lr=0.01)
optimizer_nonlinear = torch.optim.Adam(net_nonlinear.parameters(), lr=0.01)

# ==== 训练函数 ====
def train(model, optimizer, x, y, steps=1000):
    for i in range(steps):
        pred = model(x)
        loss = criterion(pred, y)
        optimizer.zero_grad()
        loss.backward()
        optimizer.step()
    return model(x).detach()

# ==== 开始训练并获得预测结果 ====
pred_linear = train(net_linear, optimizer_linear, x, y)
pred_nonlinear = train(net_nonlinear, optimizer_nonlinear, x, y)

# ==== 可视化结果 ====
plt.figure(figsize=(12, 5))

# 左图：无激活函数
plt.subplot(1, 2, 1)
plt.title("线性模型（无激活函数）")
plt.scatter(x.numpy(), y.numpy(), label='真实数据', s=10, alpha=0.6)
plt.plot(x.numpy(), pred_linear.numpy(), 'r-', label='模型预测')
plt.xlabel("输入 x")
plt.ylabel("输出 y")
plt.legend()

# 右图：含激活函数
plt.subplot(1, 2, 2)
plt.title("非线性模型（含 Tanh 激活函数）")
plt.scatter(x.numpy(), y.numpy(), label='真实数据', s=10, alpha=0.6)
plt.plot(x.numpy(), pred_nonlinear.numpy(), 'g-', label='模型预测')
plt.xlabel("输入 x")
plt.ylabel("输出 y")
plt.legend()

plt.tight_layout()
plt.show()

【运行结果】

Tanh激活函数

ReLU激活函数

Sigmoid激活函数

5.3 实验效果说明

无激活函数图：线性模型预测效果差，只能画出一条“抖动”的线
有激活函数图：非线性模型可以较好地拟合 sin(x) 的波形

六、激活函数的五大核心使命

6.1 使命一：打破线性枷锁（引入非线性）

现实世界数据90%以上是非线性的（如图像边缘/语音波形）
对比实验：
- 无激活函数：只能拟合直线【y=ax+b】
- 加入ReLU：可拟合房价波动曲线、图像分类边界

【问题本质】

现实世界的数据关系是非线性的（如房价与面积的关系：小面积时单价高，大面积时单价反而降低）

【线性模型局限】
# 无激活函数的神经网络 = 多重线性变换的叠加  
output = W3 * (W2 * (W1 * input + b1) + b2) + b3  
# 数学证明：可合并为 output = W_combined * input + b_combined (仍是直线!)
【非线性激活的威力】

【生活类比】

线性模型 ≈ 只会画直线的画家
激活函数 ≈ 给画家一支曲线笔（能绘制房价波动曲线/人脸轮廓等复杂形状）

6.2 使命二：智能特征过滤器（特征抽象与筛选）

类似分段函数中的 "条件判断"（如 x<0 时归零）
例如 ReLU：f(x)=max(0,x)
- 正向信号：直接传递（保留重要特征）
- 负向信号：彻底丢弃（过滤噪声）

【问题本质】

并非所有输入信息都值得传递（如识别猫时，背景噪音应被抑制）

【技术实现】

激活函数过滤机制效果

ReLU 负值归零消除干扰特征

你的分段函数 x<0时归零屏蔽无效信号

Sigmoid 压缩到(0,1) 突出显著特征

【神经网络工作流】

生活类比：

激活函数 ≈ 电影剪辑师的剪刀

剪掉无聊片段（负值归零）

放大精彩特写（正值增强）

激活函数	过滤机制	效果
ReLU	负值归零	消除干扰特征
你的分段函数	x<0时归零	屏蔽无效信号
Sigmoid	压缩到(0,1)	突出显著特征

6.3 使命三：输出控制器（控制输出范围）

函数类型	输出范围	适用场景
Sigmoid	(0,1)	二分类概率输出
Tanh	(-1,1)	RNN隐藏层状态
你的分段函数	[0,4]	自定义受限系统

【问题本质】

不同层需要特定范围的输入（如概率必须在0-1之间）

【关键场景对比】

应用场景激活函数输出范围必要性

二分类输出层 Sigmoid (0,1) 符合概率定义

生成图片像素值 Tanh (-1,1) 匹配RGB归一化范围

自定义系统你的分段函数 [0,2] 防止数值爆炸

示例：Sigmoid的数学控制

↓

铁锁般锁定在(0,1)区间

【生活类比】

激活函数 ≈ 汽车限速器

上坡时给油加速（放大有效信号）

超速时强制降速（限制输出上限）

应用场景	激活函数	输出范围	必要性
二分类输出层	Sigmoid	(0,1)	符合概率定义
生成图片像素值	Tanh	(-1,1)	匹配RGB归一化范围
自定义系统	你的分段函数	[0,2]	防止数值爆炸

6.4 使命四：梯度流量调节器（梯度调控）

分段函数在 x=0,2,4 处存在梯度突变
Sigmoid的缺陷：两端饱和区梯度≈0 → 梯度消失
ReLU的优势：正区间梯度恒为1 → 缓解梯度消失
梯度本质三重领悟

方向指导：

“梯度是参数空间的指南针，永远指向损失下降最快的方向”
力度标尺：

“梯度大小是紧急程度警报，数值越高表明参数调整越迫切”
流动血液：

“梯度流动是神经网络的生命力，阻断流动等于宣告模型死亡”

【本质问题】

深层网络训练依赖梯度流动，不当处理会导致：

梯度消失（如Sigmoid两端饱和区）→ 底层参数无法更新

梯度爆炸（如无限制线性增长）→ 训练崩溃

【激活函数的调控智慧】

函数类型梯度行为影响

ReLU 正区间梯度=1 稳定反向传播

LeakyReLU 负区间梯度=0.01 避免神经元“死亡”

你的分段函数 x=0,2,4点梯度突变需警惕训练不稳定

【梯度传播对比实验】
[输入层] → [全连接层] → [激活函数] → [输出层]
↑----------------反向传播-------------↓

ReLU网络： 梯度流畅通率 > 85%  
Sigmoid网络：经过5层后梯度衰减至不足5%
【生活类比】

类比1

激活函数 ≈ 城市排水系统设计师

设计平滑斜坡（ReLU梯度恒定）→ 雨水快速流动

避免死水洼地（Sigmoid饱和区）→ 防止积水腐败

类比2 盲人找山温泉

一位盲人，目标是找到山中最温暖的温泉（最小损失点），但看不见路，只能靠脚底温度感受坡度（梯度）。

关键对应关系：

登山元素神经网络概念智慧要点

脚底温度感受梯度计算唯一的导航信息

迈步方向参数更新方向始终朝温度升高方向（负梯度）

步幅大小学习率陡坡小步，缓坡大步

温泉位置损失最小点训练目标

梯度本质：

“梯度就是盲人脚下的温度坡度仪，告诉他哪个方向会更温暖（损失更小）”

类比3 外卖小哥抄近路（反向传播实战）

故事设定：

你是外卖小哥，要从A点（输入层）送餐到E点（输出层），中途经过BCD三个小区（隐藏层）。梯度就是实时导航系统！

送餐故障分析：

1.顾客差评（损失函数报警）：汤洒了（预测不准）

2.反向追溯（反向传播）：

检查最后100米（输出层梯度）

发现D→E路段颠簸（∂L/∂W4 大）

继续追溯C→D弯道过多（∂L/∂W3 大）

最终发现B→C在修路（∂L/∂W2 巨大）

3.参数优化：

绕开B→C修路段（减小W2权重）

加固D→E包装（调整输出层参数）

梯度作用体现：

“梯度就是外卖APP上的实时路况热力图，红色代表高梯度（需优先处理的路段），绿色代表低梯度（通畅路段）”

类比4 类比三：城市交通信号系统（梯度流控制）

故事设定：

梯度是早高峰的交通流量，激活函数就是路口信号灯系统：

不同激活函数的交通策略：

激活函数信号策略交通状况神经网络问题

Sigmoid 所有方向限流50% 全域大堵车梯度消失

ReLU 北环绿灯，东区红灯北环畅通，东区死锁神经元死亡

你的分段函数 北环放行100%，东区7:00-9:00禁行高峰期限流有效但切换时混乱梯度突变震荡

理想方案 智能动态调流：北环绿灯+东区黄灯缓行全域畅通健康梯度流

梯度流动箴言：

“激活函数是交通指挥官，它决定梯度（车流）如何分配——糟糕的指挥导致全城瘫痪（梯度消失/爆炸），智慧的调度让信息畅通无阻”

函数类型	梯度行为	影响
ReLU	正区间梯度=1	稳定反向传播
LeakyReLU	负区间梯度=0.01	避免神经元“死亡”
你的分段函数	x=0,2,4点梯度突变	需警惕训练不稳定

登山元素	神经网络概念	智慧要点
脚底温度感受	梯度计算	唯一的导航信息
迈步方向	参数更新方向	始终朝温度升高方向（负梯度）
步幅大小	学习率	陡坡小步，缓坡大步
温泉位置	损失最小点	训练目标

激活函数	信号策略	交通状况	神经网络问题
Sigmoid	所有方向限流50%	全域大堵车	梯度消失
ReLU	北环绿灯，东区红灯	北环畅通，东区死锁	神经元死亡
你的分段函数	北环放行100%，东区7:00-9:00禁行	高峰期限流有效但切换时混乱	梯度突变震荡
理想方案	智能动态调流：北环绿灯+东区黄灯缓行	全域畅通	健康梯度流

6.5 使命五：生物神经元模拟器（生物神经模拟）

类似神经元 "阈值激活机制"
- 输入<阈值：静默状态（如x<0时y=0）
- 输入≥阈值：触发响应（如x≥0时激活）

【问题本质】

人脑神经元遵循“阈值激活”原则，激活函数是AI对生物的致敬。

【生物神经 VS AI神经】

特性生物神经元激活函数实现

激活阈值 -50mV膜电位 ReLU的x>0阈值

全或无原则达到阈值才触发动作电位 x<0时输出0

饱和现象最大放电频率限制 Sigmoid两端饱和

【分段函数仿生解析】
if x < 0:     # 膜电位未达阈值
    return 0   # 神经元静息状态
elif 0<=x<2:  # 达到基础阈值
    return 2*x # 放电强度与输入正相关
elif x>=4:    # 超过生理极限
    return 2   # 达到最大放电频率
【生活类比】

激活函数 ≈ 神经元的电击测试仪

微弱电流（x<0）→ 无反应

适当电流（0≤x<2）→ 线性响应

过强电流（x≥4）→ 最大输出保护

特性	生物神经元	激活函数实现
激活阈值	-50mV膜电位	ReLU的x>0阈值
全或无原则	达到阈值才触发动作电位	x<0时输出0
饱和现象	最大放电频率限制	Sigmoid两端饱和

五大使命关联性全景图

终极认知：
激活函数不是简单的“开关”，而是智能信号加工厂：

接收原始线性输入（原材料）
流水线执行五大使命（加工工序）
输出非线性特征（高附加值产品）

七、主流激活函数对比

函数名	数学形式	特性	与你的分段函数相似点
ReLU	max(0,x)	稀疏激活/计算简单	x<0时归零
LeakyReLU	max(0.01x,x)	缓解负信号死亡问题	类似0≤x<2区间保留负斜率
Swish	x·sigmoid(x)	平滑/自门控	类似2≤x<4区间的非线性过渡
你的函数	分段线性	多模式响应	自定义区间行为

八、激活函数选择黄金法则

隐藏层首选：ReLU及其变种（平衡效率与效果）
二分类输出层：Sigmoid（概率映射）
多分类输出层：Softmax（归一化概率）
自定义场景：
- 需限制输出范围 → 参考分段函数的饱和设计
- 需区分正负响应 → 参考分段函数的区间策略

✨ 设计启示：你的分段函数本质上是一个手工定制激活函数，这种思想可迁移到：

针对特殊数据分布设计专用激活函数

通过分段策略解决梯度异常问题

九、非线性=神经网络的超能力

关键结论：

“激活函数是神经网络理解世界的翻译官，它将平淡的线性特征转化为充满细节的非线性叙事，让AI得以看见数据背后的故事。”

总结一下

非线性激活函数=神经网络的“灵魂”，如果没有它：

网络再深也只是“线性模型套娃”
无法建模复杂世界的问题
就无法称之为“深度学习”

💡 博主的建议

初学者常常忽略激活函数的作用，实际上：

“没有非线性激活，就没有深度学习”。

✅ 如果你只理解了“神经元加权求和”，还不够。你必须理解：
➡️ 激活函数是“破局之钥”，它让神经网络真正具备了“学习任何函数”的能力。

【机器学习&深度学习】非线性激活函数

前言

一、什么是激活函数？

1.1 作用

二、如果没有激活函数，会发生什么？

2.1 先看一张图理解“线性”的局限

2.2 核心认知：为什么非线性如此重要？

三、非线性激活函数到底解决了什么问题？

3.1 引入非线性，提升模型的表达力

3.2 多层网络才能真正发挥作用

3.3 控制输出范围，稳定梯度

3.4 有助于梯度传播

3.5 生物学启发：模拟神经元激活机制

四、常见的非线性激活函数

五、小实验：是否加非线性函数的训练效果

5.1 实验目标

5.2 实验代码（使用 PyTorch）

5.3 实验效果说明

六、激活函数的五大核心使命

6.1 使命一：打破线性枷锁（引入非线性）

6.2 使命二：智能特征过滤器（特征抽象与筛选）

6.3 使命三：输出控制器（控制输出范围）

6.4 使命四：梯度流量调节器（梯度调控）

6.5 使命五：生物神经元模拟器（生物神经模拟）

五大使命关联性全景图

七、主流激活函数对比

八、激活函数选择黄金法则

九、非线性=神经网络的超能力

总结一下

💡 博主的建议

网站公告

今日签到

热门文章

最新发布

【机器学习&深度学习】非线性激活函数

前言

一、什么是激活函数？

1.1 作用

二、如果没有激活函数，会发生什么？

2.1 先看一张图理解“线性”的局限

2.2 核心认知：为什么非线性如此重要？

三、非线性激活函数到底解决了什么问题？

3.1 引入非线性，提升模型的表达力

3.2 多层网络才能真正发挥作用

3.3 控制输出范围，稳定梯度

3.4 有助于梯度传播

3.5 生物学启发：模拟神经元激活机制

四、 常见的非线性激活函数

五、小实验：是否加非线性函数的训练效果

5.1 实验目标

5.2 实验代码（使用 PyTorch）

5.3 实验效果说明

六、激活函数的五大核心使命

6.1 使命一：打破线性枷锁（引入非线性）

6.2 使命二：智能特征过滤器（特征抽象与筛选）

6.3 使命三：输出控制器（控制输出范围）

6.4 使命四：梯度流量调节器（梯度调控）

6.5 使命五：生物神经元模拟器（生物神经模拟）

五大使命关联性全景图

七、主流激活函数对比

八、 激活函数选择黄金法则

九、非线性=神经网络的超能力

总结一下

💡 博主的建议

网站公告

今日签到

热门文章

最新发布

四、常见的非线性激活函数

八、激活函数选择黄金法则