文章目录
1 神经网络介绍
1.1 起源与发展
- 生物学灵感(1950s)
- 最初目标是模仿人脑神经元的学习机制(电信号传递与连接形成)。
- 现代神经网络已大幅简化,与真实大脑机制差异显著。

技术发展浪潮
1950s:首次提出 → 1980s-1990s:手写识别(邮政编码、支票处理) → 2005年后:以“深度学习”复兴。
“深度学习”术语因更易传播被广泛采用。
语音识别(首个成功领域)→ 计算机视觉(2012 ImageNet里程碑)→ NLP/推荐系统/医疗等。
1.2 生物神经元 vs. 人工神经元
对比维度 | 生物神经元 | 人工神经元 |
---|---|---|
结构 | 树突(输入)、轴突(输出)、细胞体 | 简化数学模型(输入→计算→输出) |
工作机制 | 电脉冲传递与动态连接 | 数值计算与固定权重传递 |
实际意义 | 人类思维的基础单元 | 工程化组件,无意识属性 |
吴恩达提醒
“不要过度关注生物学类比——现代深度学习依赖工程优化,而非神经科学。”
神经网络爆发的关键原因
数据量爆炸(互联网/数字化推动)
传统算法(如线性回归)性能随数据增长停滞,而神经网络持续提升。

硬件革命
GPU(图形处理器)的并行计算能力加速了大规模神经网络训练。
1.3 学习建议
历史教训
神经网络多次“失宠”说明:技术突破需匹配时代条件(数据+算力)。
行动指南
- 若数据量充足(如百万级样本),首选神经网络。
- 聚焦数学原理(如梯度下降),而非生物模拟。
- GPU 资源直接影响模型训练效率。
2 案例:T 恤预测
2.1 基础概念
神核心思想:神经网络模仿人脑神经元的工作方式,通过多层计算单元(神经元)从数据中学习复杂模式。
神经元(Neuron)
接收输入(如价格、运费),通过计算(如逻辑回归)输出一个值(如概率)。
公式表示:
a = σ ( w x + b ) ( Sigmoid函数: σ ( z ) = 1 1 + e − z ) a=\sigma(wx+b)\quad\left(\text{Sigmoid函数: }\sigma(z)=\frac1{1+e^{-z}}\right) a=σ(wx+b)(Sigmoid函数: σ(z)=1+e−z1)其中, a a a 是激活值(输出概率), w w w 是权重, b b b 是偏置。

类比
单个神经元像一台微型计算机,输入数字(特征),输出预测结果(如 T 恤是否畅销)。
2.2 需求预测示例
问题:基于以下特征,预测 T 恤是否会畅销:
- 价格(Price)
- 运费(Shipping Cost)
- 营销投入(Marketing)
- 材料质量(Material Quality)
神经网络结构
在神经网络中,层是一组神经元,将相同或相似的特征作为输入,然后一起输出一些数字。
- 输入层:4个特征(价格、运费、营销、材料)。
- 隐藏层:3 个神经元分别计算
- 负担能力(Affordability):价格 + 运费。
- 认知度(Awareness):营销投入。
- 感知质量(Perceived Quality):价格 + 材料质量。
- 输出层:综合隐藏层结果,输出畅销概率。

关键点
隐藏层自动学习特征组合(无需手动设计)。
输出层公式
P ( 畅销 ) = σ ( w 1 ⋅ Affordability + w 2 ⋅ Awareness + w 3 ⋅ Perceived Quality + b ) P(\text{畅销})=\sigma(w_1\cdot\text{Affordability}+w_2\cdot\text{Awareness}+w_3\cdot\text{Perceived Quality}+b) P(畅销)=σ(w1⋅Affordability+w2⋅Awareness+w3⋅Perceived Quality+b)
术语 | 解释 |
---|---|
输入层 | 原始特征(如价格、运费)。 |
隐藏层 | 中间层,计算新特征(如负担能力);数据中不可见,故称“隐藏”。 |
输出层 | 最终预测结果(如概率)。 |
激活( a a a) | 神经元输出值,反映特征重要性(如高营销 → 高认知度)。 |
权重( w w w) | 参数,决定输入对输出的影响程度(学习过程中自动调整)。 |
2.3 多隐藏层神经网络
更复杂场景:当问题需要更高阶特征时(如人脸识别),可堆叠多个隐藏层。
示例结构:
- 输入层 → 隐藏层 1(3 个神经元) → 隐藏层 2(2 个神经元) → 输出层。
- 每层输入为前一层的激活值,逐步抽象特征。

术语:
- 多层感知器(MLP):含多个隐藏层的神经网络。
- 深度神经网络:隐藏层数较多(如 ≥ 2)的神经网络。
2.4 神经网络的优势
- 自动特征工程:无需手动组合特征(如“价格×材料”),隐藏层自动学习有效特征。
- 对比传统方法:逻辑回归需人工设计多项式特征(如 x 1 × x 2 x_1\times x_2 x1×x2)。
- 灵活性:通过调整层数和神经元数量,适应不同复杂度的问题。
直观理解
- 隐藏层像“黑箱”,将原始数据转换为更易预测的表示(如“可负担性”比“价格+运费”更直接)。
3 案例:图像感知
3.1 计算机视觉任务
如何让神经网络识别图像内容(如人脸、汽车)?
- 输入表示:图像被存储为像素矩阵(如 1000×1000 分辨率),每个像素值为 0-255 的亮度(灰度)或 RGB 三通道值。
- 向量化:将像素矩阵展开为长向(1000×1000=1,000,000维),作为神经网络输入。

3.2 神经网络架构
输入层:1,000,000 维像素向量。
隐藏层
第一层:检测低级特征(如边缘、线条)。
示例:神经元 1 检测垂直线,神经元 2 检测 45° 斜线。
第二层:组合低级特征,检测面部部件(如眼睛、鼻子)。
第三层:整合部件,识别完整面部形状。
输出层:预测人物身份(如概率输出)。
网络提取特征顺序为边缘→部件→物体,下图中小神经元可视化实际上对应于图像中不同大小的区域。

只需向其提供不同的数据,神经网络就会自动学习检测不同的特征。同一网络结构在汽车数据集上:第一层仍检测边缘,但第二层学习车轮、车灯等部件,第三层识别整车。
