目录
一、神经网络中最基础的结构:全连接层
这张图描述的是神经网络(Neural Network)中最基础的结构——全连接层(Fully Connected Layer),属于机器学习和深度学习中的核心知识点。
▲最简解释
想象你有三个数字输入:x₁, x₂, x₃(比如温度、湿度、风速)。
你想得到两个计算结果:Z₁ 和 Z₂(比如"下雨概率"和"刮风强度")。中间的 W 是转换系数(权重):
W₁₁ 是 x₁ 对 Z₁ 的影响系数
W₁₂ 是 x₁ 对 Z₂ 的影响系数
其他系数虽然没写全,但都存在(如图示)
计算过程
Z₁ 的计算
Z₁ = (x₁ × W₁₁) + (x₂ × W₂₁) + (x₃ × W₃₁)
相当于:
Z₁ = 温度×系数1 + 湿度×系数2 + 风速×系数3Z₂ 的计算
Z₂ = (x₁ × W₁₂) + (x₂ × W₂₂) + (x₃ × W₃₂)
相当于:
Z₂ = 温度×系数4 + 湿度×系数5 + 风速×系数6
▲生活化例子
假设你在做奶茶配方:
输入:x₁=糖量, x₂=茶量, x₃=奶量
输出:Z₁=甜度, Z₂=茶味强度
权重:
W₁₁=0.7(糖对甜度的影响)
W₂₁=0.1(茶对甜度的影响)
W₃₁=0.2(奶对甜度的影响)
W₁₂=0.3(糖对茶味的影响)...
那么:
甜度 Z₁ = (糖×0.7) + (茶×0.1) + (奶×0.2)
茶味 Z₂ = (糖×0.3) + (茶×0.6) + (奶×0.1)
二、多层感知器(MLP)
多个神经元可以组合一起,形成多层感知机。多层感知器(Multi-Layer PerceptronMLP):通过叠加多层全连接层来提升网络的表达能力。相比单层网络,多层感知器有很多中间层的输出并不暴露给最终输出,这些层被称为隐含层(HiddenLayers)。
1、 核心概念:多层感知器(MLP)是什么?
本质:一种模仿人脑神经元工作方式的计算模型。
核心功能:通过多层非线性变换,将简单输入(如数字、像素)转化为复杂决策(如分类、预测)。
结构特点:
输入层 → 多个隐含层(全连接)→ 输出层
2、图中各部分的详细解释
1. 输入层(Input Layer)
节点:x1,x2,x3x1,x2,x3(3个输入特征)
示例:房价预测中的 "面积"、"地段"、"房龄"作用:接收原始数据。
2. 隐含层(Hidden Layers)
图中结构:3个隐含层(隐含层1 → 隐含层2 → 隐含层3)
关键操作(以隐含层1为例):
输出 = f(w * 输入 + b) # f=激活函数, w=权重, b=偏置
全连接特性:
每个节点(如 a11,a21,...,a3141a11,a21,...,a3141)都接收上一层的所有输入。
(图中列出314个节点,实际数量可自定义)3. 输出层(Output Layer)
最终公式:
z = f(W_out * [第3层输出] + b_out)
作用:生成最终结果(如分类概率、预测值)。
3、为什么需要多层结构?
层数 作用 生活化类比 输入层 接收原始数据 眼睛看到原始图像 隐含层1 提取基础特征(如边缘、线条) 大脑识别物体轮廓 隐含层2 组合特征(如形状、部件) 大脑拼出"眼睛+鼻子=脸" 隐含层3 抽象高级特征(如物体类别) 大脑判断"这是一只猫" 输出层 生成最终结果 说出"猫"
4、关键知识点
1.全连接层(Fully Connected Layer)
每一层的每个神经元都与下一层的所有神经元连接
(图中节点间的密集连线)2.激活函数(Activation Function)
图中
f()
的作用:引入非线性(如ReLU、Sigmoid)为什么重要:没有它,多层网络会退化成单层线性模型。
3.参数学习
权重(ww)和偏置(bb)通过反向传播自动优化
示例:训练时自动调整"面积"对房价的影响系数4.深度(Depth)的意义
更多隐含层 → 更强的特征抽象能力
平衡建议:层数过多易导致过拟合(图中3层是合理起点)
5、典型应用场景
1.结构化数据预测
输入:表格数据(如金融风控中的用户收入、负债)
输出:信用评分(zz)
2.图像分类
输入:像素值(需先展平为一维向量)
输出:类别概率(如 z1z1=猫, z2z2=狗)
3.自然语言处理
输入:词向量
输出:情感倾向(正面/负面)
6、与简单神经网络的对比
特性 单层网络(前图) 多层感知器(本图) 结构 输入→输出 输入→多个隐含层→输出 能力 只能解决线性问题 解决复杂非线性问题 特征提取 无 自动逐层抽象特征 图中节点数 3输入+2输出 3输入+314隐含节点+1输出 💡 提示:图中314个隐含节点仅为示例,实际任务中需根据数据复杂度调整(通常取2的幂次如256/512)。
学习意义
这是理解所有深度学习模型的基石:
CNN(卷积神经网络) = MLP + 卷积层
RNN(循环神经网络) = MLP + 时序连接
Transformer = MLP + 自注意力机制
三、 场景:用MLP制作「美味披萨判断机」
通过这个例子,更形象的理解多层感知器MLP。
假设你是美食评委,要判断一个披萨是否美味(输出结果)。但你不能直接吃,只能通过3个传感器输入数据:
输入层:
x1 = 芝士厚度(毫米)
x2 = 烤制时间(分钟)
x3 = 酱料甜度(0-10分)
3.1 形象示例:MLP如何像「后厨团队」一样工作?
3.1.1 隐含层1:初级厨师组(处理基础特征)
任务:分解原始食材信息
厨师A₁:计算
(芝士厚度×0.4 + 烤制时间×0.1)
→ 得到"芝士融化度"厨师A₂:计算
(酱料甜度×0.3 - 烤制时间×0.2)
→ 得到"焦苦风险"
(多层感知图中的一排排的 a11,a21...a11,a21... 就是这些厨师)
激活函数:就像厨师尝一口说:
“芝士融化度超过5分?那算6分吧!”(用ReLU函数过滤)
3.1.2 隐含层2:中级厨师组(组合特征)
输入:初级厨师组的结论(芝士融化度、焦苦风险等)
任务:
厨师B₁:把"芝士融化度"和"焦苦风险"组合 → 得到"口感协调分"
(相当于 w2×f(Layer1)+b2w2×f(Layer1)+b2)
激活函数:再次评估调整 → “协调分7.2,保留!”
3.1.3 隐含层3:主厨(抽象决策)
输入:中级厨师组的报告
任务:
主厨C:综合所有信息 → 计算"美味潜力值"
(相当于 w3×f(Layer2)+b3w3×f(Layer2)+b3)
激活函数:*“潜力值88分?先压到0-1之间!”*(用Sigmoid函数压缩)
3.1.4 输出层:老板拍板
输入:主厨的"美味潜力值"
计算:
z=f(Wout×潜力值+bout)z=f(Wout×潜力值+bout)
结果:
z>0.5z>0.5 → 输出1(美味!)
z≤0.5z≤0.5 → 输出0(难吃!)
3.2 为什么需要这么多层?
层 | 披萨制作类比 | 机器学习作用 |
---|---|---|
输入层 | 称面粉、量芝士 | 接收原始数据 |
隐含层1 | 揉面团、切芝士 | 提取基础特征(数字处理) |
隐含层2 | 组合面团+芝士+酱料 | 融合特征(发现相关性) |
隐含层3 | 试吃半成品调整火候 | 抽象理解(美味的关键) |
输出层 | 宣布“披萨成功!” | 生成决策 |
3.3 关键机制拆解
权重(ww) → 厨师的手艺
好的厨师(权重优化)能精准把握:*“芝士厚度每增加1mm,美味值+0.4分”*偏置(bb) → 厨房设备加成
高级烤箱(偏置)让普通披萨也能加分:*“用石窑烤制,基础美味值+10分!”*激活函数(ff) → 品控标准
拒绝黑暗料理:“烤糊的披萨直接给0分!”(ReLU过滤负值)
控制输出范围:*“最高100分?压缩成0-1概率!”*(Sigmoid)
3.4 整个系统的超能力
学习能力:如果多次把难吃披萨标记为0,系统会自动:
→ 降低焦苦披萨的权重(ww)
→ 提高芝士充足的偏置(bb)
(这就是训练神经网络!)复杂决策:即使输入数据矛盾(如芝士厚但烤糊了),多层组合后仍能正确判断!
✅ 一句话总结:
MLP就像一条智能披萨生产线:
传感器输入 → 层层厨师团队处理 → 老板输出决策
深度越深,越能理解复杂美味(比如区分玛格丽特披萨和夏威夷披萨)!