一、机器学习应用领域
1.1 推荐系统
- 典型案例:移动 APP 推荐功能
- 核心方法:基于用户行为数据的协同过滤与深度学习
1.2 计算机视觉
- 应用场景:图像分类、目标检测
- 关键技术:卷积神经网络(CNN)
1.3 博弈决策
- 里程碑案例:AlphaGo 围棋系统
- 核心技术:深度强化学习与蒙特卡洛树搜索
二、核心概念体系
2.1 概念关系图谱
2.2 关键术语解析
- 数据集结构:
食材新鲜度 | 火候 | 烹饪技术 | 菜肴评价 |
---|---|---|---|
新鲜 | 偏大 | 熟练 | 中等 |
不够新鲜 | 适中 | 一般 | 好 |
- 任务类型:
- 监督学习:分类(离散值)、回归(连续值)
- 无监督学习:聚类、降维
三、机器学习三要素
3.1 模型架构
F = { f ∣ Y = f ( X ) } 或 F = { P ∣ P ( Y ∣ X ) } \mathcal{F}=\{f\mid Y=f(X)\} \quad \text{或} \quad \mathcal{F}=\{P\mid P(Y\mid X)\} F={f∣Y=f(X)}或F={P∣P(Y∣X)}
3.2 优化策略
损失函数公式:
L = 1 N ∑ i = 1 N L ( y i , f ( x i ) ) + λ J ( f ) L = \frac{1}{N}\sum_{i=1}^N L(y_i, f(x_i)) + \lambda J(f) L=N1i=1∑NL(yi,f(xi))+λJ(f)
3.3 求解算法
- 梯度下降法
- 牛顿法
- 拟牛顿法
四、性能评估体系
4.1 分类指标
混淆矩阵示例:
预测正 | 预测负 | |
---|---|---|
实际正 | TP=70 | FN=25 |
实际负 | FP=15 | TN=50 |
核心指标:
- 准确率:
- 精确率:
- 召回率:
4.2 回归指标
指标 | 公式 |
---|---|
MAE | 1 n ∑ y i − y ^ i \frac{1}{n}\sum y_i-\hat{y}_i n1∑yi−y^i |
MSE | 1 n ∑ ( y i − y ^ i ) 2 \frac{1}{n}\sum(y_i-\hat{y}_i)^2 n1∑(yi−y^i)2 |
R² | 1 − S S r e s S S t o t 1-\frac{SS_{res}}{SS_{tot}} 1−SStotSSres |
五、编程实践
5.1 NumPy 基础
import numpy as np
arr = np.array([1,2,3])
print(arr.dtype) # 输出:int32
5.2 sklearn 建模
from sklearn.datasets import load_iris
from sklearn.linear_model import LogisticRegression
X, y = load_iris(return_X_y=True)
model = LogisticRegression().fit(X, y)
print(model.predict(X[:2])) # 样本预测
六、实战练习
6.1 手动计算题
给定测试集与预测结果:
y_test = [1,1,0,1,0,0,1,0,1,0,1,0,1,0,1,0,1,1,0,0,1,0,1,1,1,0,0,0,1,0]
y_pred = [1,0,1,1,0,1,1,0,1,0,0,0,1,0,1,0,1,1,0,1,1,1,1,1,1,0,1,0,1,1]
计算步骤:
- 构建混淆矩阵
- 计算 Accuracy/Precision/Recall
- 推导 F 1 Score
- 估算 AUC 值
6.2 代码验证
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score, roc_auc_score
print(f"Accuracy: {accuracy_score(y_test, y_pred):.2f}")
print(f"AUC: {roc_auc_score(y_test, y_pred):.2f}")
七、延伸思考
- 如何解决过拟合问题?
- 特征工程对模型性能的影响
- 不同优化算法的适用场景
附录:机器学习发展历程时间轴
1950 s:图灵测试提出 → 1980 s:反向传播算法 → 2012:AlexNet 突破 → 2016:AlphaGo 里程碑