机器学习基础讲解

发布于:2025-08-16 ⋅ 阅读:(23) ⋅ 点赞:(0)

一、什么是机器学习

机器学习是一种让计算机能够从数据中学习并改进的技术,其核心逻辑可以通过三个关键要素来理解:

  • 针对特定任务,以大量经验数据为基础。
  • 存在衡量任务完成好坏的评判标准。
  • 通过分析经验数据,不断优化任务的完成效果。

一个广为人知的案例是 2016 年 3 月在韩国首尔,阿尔法围棋(AlphaGo)以总比分 4:1 战胜韩国围棋九段棋手李世石,这正是机器学习在复杂决策领域的精彩应用。

从流程上看,机器学习通过对历史数据(经验)进行训练,归纳出规律并构建模型,当输入新的未知数据(属性)时,模型就能做出预测,从而解决新的问题。

二、机器学习基本术语

1. 数据相关术语

  • 数据集:数据记录的集合,例如包含多个西瓜信息的记录集合。
  • 样本:数据集中的每条记录,是对一个事件或对象的描述,比如某个具体西瓜的信息。
  • 特征(属性):反映事件或对象某方面性质的事项,如西瓜的 “色泽”“根蒂”“敲声” 等。

如下表就是一个包含样本和特征的数据集示例:

编号

色泽 根蒂 敲声
1 青绿 蜷缩 浊响
2 乌黑 蜷缩 沉闷
3 乌黑 蜷缩 浊响
4 青绿 蜷缩 沉闷

2. 空间与表示

  • 属性空间(样本空间):由属性张成的空间。
  • 向量表示:若数据集\(D = \{x_1, x_2, ..., x_m\}\)包含m个示例,每个样本由d个属性描述,则每个样本\(x_i=(x_{i1}, x_{i2}, ..., x_{id})\)是d维样本空间X中的一个向量,d为样本\(x_i\)的 “维数”。

3. 训练与测试相关

  • 训练集:用于训练模型的数据集合,包含标记信息。例如带有 “好瓜” 与否标记的西瓜数据集:
  • 训练集:用于训练模型的数据集合,包含标记信息。例如带有 “好瓜” 与否标记的西瓜数据集:
  •  
    编号 色泽 根蒂 敲声 纹理 脐部 触感 密度 含糖率 好瓜
    1 青绿 蜷缩 浊响 清晰 凹陷 硬滑 0.697 0.46
    2 乌黑 蜷缩 沉闷 清晰 凹陷 硬滑 0.774 0.376
    ... ... ... ... ... ... ... ... ... ...
  • 测试集:用于测试模型的数据集合,通常不包含标记信息(或标记信息用于验证),如下表中 “好瓜” 一栏为 “?”,等待模型预测:

编号 色泽 根蒂 敲声 纹理 脐部 触感 密度 含糖率 好瓜
15 乌黑 稍蜷 浊响 清晰 稍凹 软粘 0.36 0.37
16 浅白 蜷缩 浊响 模糊 平坦 硬滑 0.593 0.042
17 青绿 蜷缩 沉闷 稍糊 稍凹 硬滑 0.719 0.103

三、机器学习的主要类型

1. 监督学习

利用已知类别的样本调整模型参数,数据集包含 “正确答案”(标记)。分为:

  • 分类:模型输出为有限的离散型数值。例如判断西瓜是否为好瓜,输出 “是” 或 “否”。
编号 色泽 根蒂 敲声 好瓜
1 青绿 蜷缩 浊响
2 乌黑 蜷缩 沉闷
3 乌黑 蜷缩 浊响
4 青绿 蜷缩 沉闷
  • 回归:模型输出为某个范围内的连续型数值。例如预测房屋价格,价格可以是连续的数值。
编号 房屋面积 区域 地铁附近 价格
1 88 A 区 880000
2 104 B 区 1500000
3 79 A 区 990000
4 90 A 区

2. 无监督学习

提供数据集合但不提供标记信息,典型算法是 “聚类”,即将样本分成不同的类别。例如分析交易数据,像向购买尿布的人推荐葡萄酒,就是基于无监督学习发现的购买模式。

3. 集成学习

通过构建并结合多个学习器来完成学习任务,以提高模型的性能和稳定性。

四、模型评估与选择

1. 评估指标

  • 错误率:分类错误的样本数占样本总数的比例。
  • 精度:1 减去错误率。
  • 残差:模型实际预测输出与样本真实输出的差异。
  • 训练误差(经验误差):模型在训练集上的误差。
  • 泛化误差:模型在新样本上的误差。
  • 损失函数:衡量模型预测误差大小的函数,损失函数越小,模型越好,例如通过数据拟合直线时,预测价格与实际价格的差异衡量。

2. 模型常见问题

  • 欠拟合:模型未充分捕捉数据特征,特征集过小,对数据拟合不好,本质是对数据特征学习不够。例如将所有绿色的东西都认为是树叶。
  • 过拟合:模型过度学习训练数据,包括噪声特征,导致泛化能力差。例如认为树叶必须有锯齿,从而错误判断无锯齿的树叶。

3. 问题处理方式

  • 过拟合处理
    • 增加训练数据,减少噪声影响。
    • 降维,丢弃无用特征。
    • 正则化,减小参数大小。
    • 采用集成学习方法。
  • 欠拟合处理
    • 添加新特征,增强与样本标签的相关性。
    • 增加模型复杂度,提升拟合能力。
    • 减小正则化系数。

4. 模型选择原则

  • 奥卡姆剃刀原理:“如无必要,勿增实体”,选择能很好解释已知数据且简单的模型。
  • 没有免费的午餐(NFL):不存在对所有问题都有效的算法,谈论算法优劣需针对具体问题。

5. 评估方法

  • 留出法:将数据集划分为训练集(通常 70%)和测试集(通常 30%),注意保持数据分布一致(如分层采样),并多次随机划分避免不稳定性。
  • 交叉验证法:将数据集划分为k个相似互斥子集,每次用\(k-1\)个子集作为训练集,1 个作为测试集,进行k次训练和测试,返回均值,即 “k折交叉验证”。

6. 分类评估指标

  • TP(真正例):将正类预测为正类的数量。
  • FP(假正例):将反类预测为正类的数量。
  • TN(真反例):将反类预测为反类的数量。
  • FN(假反例):将正类预测为反类的数量。
  • 查准率(P):\(P=\frac{TP}{TP + FP}\),衡量预测为正类的样本中实际正类的比例。
  • 查全率(R):\(R=\frac{TP}{TP + FN}\),衡量实际正类中被正确预测的比例。

P-R 图可直观显示查全率和查准率,若一个学习器的 P-R 曲线被另一个完全 “包住”,则后者性能更优;若曲线交叉,则需结合具体场景判断。

五、机器学习应用领域

机器学习应用广泛,包括模式识别、计算机视觉、数据挖掘、语音识别、自然语言处理(如 Google Translate)等多个领域,正在深刻改变着我们的生活和工作方式。

通过以上内容,我们对机器学习的基本概念、类型、评估与选择等方面有了一个全面的了解,这些基础知识是深入学习机器学习的重要基石。

用通俗易懂的语言解释一下机器学习的基本术语

分享一些在日常生活中应用机器学习的具体例子

机器学习和深度学习有什么区别?


网站公告

今日签到

点亮在社区的每一天
去签到