【机器学习&深度学习】多层感知器MLP

发布于:2025-06-28 ⋅ 阅读:(16) ⋅ 点赞:(0)

目录

一、神经网络中最基础的结构:全连接层

 二、多层感知器(MLP)

1、 核心概念:多层感知器(MLP)是什么?

2、图中各部分的详细解释

1. 输入层(Input Layer)

2. 隐含层(Hidden Layers)

3. 输出层(Output Layer)

3、为什么需要多层结构?

4、关键知识点

5、典型应用场景

6、与简单神经网络的对比

学习意义

三、 场景:用MLP制作「美味披萨判断机」

3.1 形象示例:MLP如何像「后厨团队」一样工作?

3.1.1 隐含层1:初级厨师组(处理基础特征)

3.1.2 隐含层2:中级厨师组(组合特征)

3.1.3 隐含层3:主厨(抽象决策)

3.1.4 输出层:老板拍板

3.2 为什么需要这么多层?

3.3 关键机制拆解

3.4 整个系统的超能力


一、神经网络中最基础的结构:全连接层

这张图描述的是神经网络(Neural Network)中最基础的结构——全连接层(Fully Connected Layer),属于机器学习和深度学习中的核心知识点。

▲最简解释

想象你有三个数字输入:x₁, x₂, x₃(比如温度、湿度、风速)。
你想得到两个计算结果:Z₁ 和 Z₂(比如"下雨概率"和"刮风强度")。

中间的 W 是转换系数(权重):

  • W₁₁ 是 x₁ 对 Z₁ 的影响系数

  • W₁₂ 是 x₁ 对 Z₂ 的影响系数

  • 其他系数虽然没写全,但都存在(如图示)

计算过程

  1. Z₁ 的计算
    Z₁ = (x₁ × W₁₁) + (x₂ × W₂₁) + (x₃ × W₃₁)
    相当于:
    Z₁ = 温度×系数1 + 湿度×系数2 + 风速×系数3

  2. Z₂ 的计算
    Z₂ = (x₁ × W₁₂) + (x₂ × W₂₂) + (x₃ × W₃₂)
    相当于:
    Z₂ = 温度×系数4 + 湿度×系数5 + 风速×系数6


▲生活化例子

假设你在做奶茶配方:

  • 输入:x₁=糖量, x₂=茶量, x₃=奶量

  • 输出:Z₁=甜度, Z₂=茶味强度

  • 权重:

    • W₁₁=0.7(糖对甜度的影响)

    • W₂₁=0.1(茶对甜度的影响)

    • W₃₁=0.2(奶对甜度的影响)

    • W₁₂=0.3(糖对茶味的影响)...

那么:

  • 甜度 Z₁ = (糖×0.7) + (茶×0.1) + (奶×0.2)

  • 茶味 Z₂ = (糖×0.3) + (茶×0.6) + (奶×0.1)


 二、多层感知器(MLP)

多个神经元可以组合一起,形成多层感知机。多层感知器(Multi-Layer PerceptronMLP):通过叠加多层全连接层来提升网络的表达能力。相比单层网络,多层感知器有很多中间层的输出并不暴露给最终输出,这些层被称为隐含层(HiddenLayers)。

1、 核心概念:多层感知器(MLP)是什么?

  • 本质:一种模仿人脑神经元工作方式的计算模型。

  • 核心功能:通过多层非线性变换,将简单输入(如数字、像素)转化为复杂决策(如分类、预测)。

  • 结构特点
    输入层 → 多个隐含层(全连接)→ 输出层


2、图中各部分的详细解释

1. 输入层(Input Layer)
  • 节点:x1,x2,x3x1​,x2​,x3​(3个输入特征)
    示例:房价预测中的 "面积"、"地段"、"房龄"

  • 作用:接收原始数据。

2. 隐含层(Hidden Layers)
  • 图中结构:3个隐含层(隐含层1 → 隐含层2 → 隐含层3)

  • 关键操作(以隐含层1为例):

输出 = f(w * 输入 + b)  # f=激活函数, w=权重, b=偏置
  • 全连接特性
    每个节点(如 a11,a21,...,a3141a11​,a21​,...,a3141​)都接收上一层的所有输入
    (图中列出314个节点,实际数量可自定义)

3. 输出层(Output Layer)
  • 最终公式

z = f(W_out * [第3层输出] + b_out)
  • 作用:生成最终结果(如分类概率、预测值)。


3、为什么需要多层结构?

层数 作用 生活化类比
输入层 接收原始数据 眼睛看到原始图像
隐含层1 提取基础特征(如边缘、线条) 大脑识别物体轮廓
隐含层2 组合特征(如形状、部件) 大脑拼出"眼睛+鼻子=脸"
隐含层3 抽象高级特征(如物体类别) 大脑判断"这是一只猫"
输出层 生成最终结果 说出"猫"

4、关键知识点

1.全连接层(Fully Connected Layer)

  • 每一层的每个神经元都与下一层的所有神经元连接
    (图中节点间的密集连线)

2.激活函数(Activation Function)      

  • 图中 f() 的作用:引入非线性(如ReLU、Sigmoid)

  • 为什么重要:没有它,多层网络会退化成单层线性模型。

3.参数学习

  • 权重(ww)和偏置(bb)通过反向传播自动优化
    示例:训练时自动调整"面积"对房价的影响系数

4.深度(Depth)的意义

  • 更多隐含层 → 更强的特征抽象能力

  • 平衡建议:层数过多易导致过拟合(图中3层是合理起点)


5、典型应用场景

1.结构化数据预测

  • 输入:表格数据(如金融风控中的用户收入、负债)

  • 输出:信用评分(zz)

2.图像分类

  • 输入:像素值(需先展平为一维向量)

  • 输出:类别概率(如 z1z1​=猫, z2z2​=狗)

3.自然语言处理

  • 输入:词向量

  • 输出:情感倾向(正面/负面)


6、与简单神经网络的对比

特性 单层网络(前图) 多层感知器(本图)
结构 输入→输出 输入→多个隐含层→输出
能力 只能解决线性问题 解决复杂非线性问题
特征提取 自动逐层抽象特征
图中节点数 3输入+2输出 3输入+314隐含节点+1输出

💡 提示:图中314个隐含节点仅为示例,实际任务中需根据数据复杂度调整(通常取2的幂次如256/512)。


学习意义

这是理解所有深度学习模型的基石

  • CNN(卷积神经网络) = MLP + 卷积层

  • RNN(循环神经网络) = MLP + 时序连接

  • Transformer = MLP + 自注意力机制


三、 场景:用MLP制作「美味披萨判断机」

通过这个例子,更形象的理解多层感知器MLP。

 

假设你是美食评委,要判断一个披萨是否美味(输出结果)。但你不能直接吃,只能通过3个传感器输入数据:

  • 输入层

x1​ = 芝士厚度(毫米)
x2 = 烤制时间(分钟)
x3 = 酱料甜度(0-10分)


3.1 形象示例:MLP如何像「后厨团队」一样工作?

3.1.1 隐含层1:初级厨师组(处理基础特征)
  • 任务:分解原始食材信息

    • 厨师A₁:计算(芝士厚度×0.4 + 烤制时间×0.1) → 得到"芝士融化度"

    • 厨师A₂:计算(酱料甜度×0.3 - 烤制时间×0.2) → 得到"焦苦风险"
      (多层感知图中的一排排的 a11,a21...a11​,a21​... 就是这些厨师)

  • 激活函数:就像厨师尝一口说:
    “芝士融化度超过5分?那算6分吧!”(用ReLU函数过滤)

3.1.2 隐含层2:中级厨师组(组合特征)
  • 输入:初级厨师组的结论(芝士融化度、焦苦风险等)

  • 任务

    • 厨师B₁:把"芝士融化度"和"焦苦风险"组合 → 得到"口感协调分"
      (相当于 w2×f(Layer1)+b2w2​×f(Layer1)+b2​)

  • 激活函数:再次评估调整 → “协调分7.2,保留!”

3.1.3 隐含层3:主厨(抽象决策)
  • 输入:中级厨师组的报告

  • 任务

    • 主厨C:综合所有信息 → 计算"美味潜力值"
      (相当于 w3×f(Layer2)+b3w3​×f(Layer2)+b3​)

  • 激活函数:*“潜力值88分?先压到0-1之间!”*(用Sigmoid函数压缩)

3.1.4 输出层:老板拍板
  • 输入:主厨的"美味潜力值"

  • 计算

z=f(Wout×潜力值+bout)z=f(Wout​×潜力值+bout​)

  • 结果

    • z>0.5z>0.5 → 输出1(美味!)

    • z≤0.5z≤0.5 → 输出0(难吃!)


3.2 为什么需要这么多层?

披萨制作类比 机器学习作用
输入层 称面粉、量芝士 接收原始数据
隐含层1 揉面团、切芝士 提取基础特征(数字处理)
隐含层2 组合面团+芝士+酱料 融合特征(发现相关性)
隐含层3 试吃半成品调整火候 抽象理解(美味的关键)
输出层 宣布“披萨成功!” 生成决策

3.3 关键机制拆解

  1. 权重(ww) → 厨师的手艺

    好的厨师(权重优化)能精准把握:*“芝士厚度每增加1mm,美味值+0.4分”*
  2. 偏置(bb) → 厨房设备加成

    高级烤箱(偏置)让普通披萨也能加分:*“用石窑烤制,基础美味值+10分!”*
  3. 激活函数(ff) → 品控标准

    • 拒绝黑暗料理:“烤糊的披萨直接给0分!”(ReLU过滤负值)

    • 控制输出范围:*“最高100分?压缩成0-1概率!”*(Sigmoid)


3.4 整个系统的超能力

  • 学习能力:如果多次把难吃披萨标记为0,系统会自动:
    → 降低焦苦披萨的权重(ww)
    → 提高芝士充足的偏置(bb)
    (这就是训练神经网络!)

  • 复杂决策:即使输入数据矛盾(如芝士厚但烤糊了),多层组合后仍能正确判断!

✅ 一句话总结
MLP就像一条智能披萨生产线
传感器输入 → 层层厨师团队处理 → 老板输出决策
深度越深,越能理解复杂美味(比如区分玛格丽特披萨和夏威夷披萨)!


网站公告

今日签到

点亮在社区的每一天
去签到