全面了解机器学习-EW帮帮网

在当今的科技时代，大量结构化和非结构化数据是我们的丰富资源。机器学习在 20世纪下半叶演变为人工智能（Al）的一个分支，它通过自学习算法从数据中获得知识来进行预测。机器学习 并不需要事先对大量数据进行人工分析，然后提取规则并建立模型，而是提供了一种更为有效的方法来捕获数据中的知识，逐步提高预测模型的性能，以完成数据驱动的决策。

2. 机器学习位置

机器学习是人工智能的一个分支，作为人工智能的核心技术和实现手段，通过机器学习的方法解决人工智能面对的问题。机器学习是通过一些让计算机可以自动 “学习” 的算法，从数据中分析获得规律，然后利用规律对新样本进行预测。

从本质上看，数据科学的目标是通过处理各种数据促进人们的决策，机器学习的主要任务 是使机器模仿人类的学习，从而获得知识。而人工智能借助机器学习和推理最终是形成具体的智能行为。

二、机器学习的类型

1. 监督学习

监督学习的主要目标是从有标签的训练数据中学习模型，以便对未知或未来的数据做出预测。其中，模型的输入是某一样本的特征，函数的输出是这一样本对应的标签。这里的 “监督” 一词指的是 已经知道训练样本（输入数据）中期待的输出信号（标签）。

2. 无监督学习

无监督学习又称为非监督式学习，它的输入样本并不需要标记，而是自动从样本中学习特征实现预测。用无监督学习技术，可以在没有己知结果变量或奖励函数的指导下，探索数据结构来提取有意义的信息。

3. 强化学习

强化学习是通过观察来学习做成什么样的动作。每个动作都会对环境有所影响，学习对象根据观察到的周围环境的反馈来做出判断。强化学习强调如何基于环境而行动，以取得最大化的预期利益。强化学习的反馈并非标定过的正确标签或数值，而是 奖励函数对行动度量的结果。通过探索性的试错或深思熟虑的规划来最大化这种奖励。

强化学习有许多不同的子类。然而，一般模式是强化学习智能体试图通过与环境的一系列交互来最大化奖励。

三、机器学习术语

1. 训练样本

表中的行，代表数据集的观察、记录、个体或者样本（在多数情况下，样本指训练样本集）。

2. 训练

模型拟合，对参数型模型而言，类似参数估计。

3. 特征

缩写为x，指数据表或矩阵的列。与预测因子、变量、输入、属性或协变量同义。

4. 目标

缩写为y，与结果、输出、响应变量、因变量、分类标签和真值同义。

5. 损失函数

经常与代价函数同义。有时也被称为误差函数。在有些文献中，术语损失指的是对单个数据点进行测量的损失，而代价是对整个数据集进行测量（平均或者求和）的损失。

四、机器学习流程

① 在对原始数据进行数据探索后，可能发现不少问题，如缺失数据、数据不规范、数据分布不均衡、数据异常、数据冗余等。这些问题都会影响数据质量。为此，需要对数据进行预处理。归一化、离散化、缺失值处理、去除共线性等，是机器学习的常用预处理方法。

② 特征选择是否合适，往往会直接影响模型的结果，对于好的特征，使用简单的算法也能得出良好、稳定的结果。特征选择时可应用特征有效性分析技术，如相关系数、卡方检验、平均互信息、条件熵、后验概率和逻辑回归权重等方法。

③ 训练模型前，一般会把数据集分为训练集和测试集，或对训练集再细分为 训练集和验证集，从而对模型的 泛化能力 进行评估。模型本身并没有优劣。在模型选择时，一般不存在对任何情况都表现很好的算法，这又称为 “没有免费的午餐” 原则。因此在实际选择时，一般会用几种不同方法来进行模型训练，然后比较它们的性能，从中选择最优的一个。不同的模型使用不同的性能衡量指标。

④ 使用训练数据构建模型后，需使用 测试数据 对模型进行测试和评估，测试模型对新数据的泛化能力。如果测试结果不理想，则分析原因并进行模型优化。如果出现过拟合，特别是在回归类问题中，则可以考虑正则化方法来降低模型的泛化误差。过拟合、欠拟合判断是模型诊断中重要的一步，常见的方法有交叉验证、绘制学习曲线等。过拟合的基本调优思路是增加数据量，降低模型复杂度。欠拟合的基本调优思路是提高特征数量和质量，增加模型复杂度。

五、机器学习算法

根据机器学习的任务分类，可以分为回归、分类、聚类三大常见机器学习任务。

1. 分类算法

分类算法是应用分类规则对记录进行目标映射，将其划分到不同的分类中，构建具有泛化能力的算法模型，即构建映射规则来预测未知样本的类别。

        分类算法包括 预测和描述 两种。

     ① 预测：经过训练集学习的预测模型在遇到未知记录时，应用规则对其进行类别划分。

    ② 描述：主要是对现有数据集中特征进行解释并进行区分，例如对动植物的各项特征进行描述，并进行标记分类，由这些特征来决定其属于哪一类目。

主要的分类算法包括决策树、支持向量机（Support Vector Machine，SVM）、最近邻（K-Nearest Neighbor，KNN）算法、贝叶斯网络（BayesNetwork）和神经网络等。

2. 聚类算法

聚类按照 数据的内在结构特征 进行聚集形成簇群，从而实现数据的分离。聚类与分类的主要区别是其 并不关心数据是什么类别，而是把相似的数据聚集起来形成某一类簇 。

在聚类的过程中，首先选择有效特征构成向量，然后按照欧氏距离或其他距离函数进行相似度计算，并划分聚类，通过对聚类结果进行评估，逐渐迭代生成新的聚类。

聚类方法可分为基于层次的聚类（Hierarchical Method）、基于划分的聚类（Partitioning Method，PAM）、基于密度的聚类、基于约束的聚类、基于网络的聚类等。

     ① 基于层次的聚类：是将数据集分为不同的层次，并采用分解或合并的操作进行聚类，主要包括 BIRCH （Balanced lterative Reducing andClustering using Hierarchies）、 CURE （Clustering UsingRepresentatives）等。

     ② 基于划分的聚类：是将数据集划分为 k个簇，并对其中的样本计算距离以获得假设簇中心点，然后以簇的中心点重新迭代计算新的中心点，直到 k个簇的中心点收敛为止。基于划分的聚类有 k均值等。

     ③ 基于密度的聚类：是根据样本的密度不断增长聚类，最终形成一组 “密集连接” 的点集，其核心思想是只要数据的密度大于阈值就将其合并成一个簇，可以过滤噪声，聚类结果可以是任意形状，不必为凸形。基于密度的聚类方法主要包括 DBSCAN （Density -Based Spatial Clustering ofApplication with Noise）、 OPTICS （Ordering Points To Identify theClustering Structure）等。

3. 关联分析

关联分析（Associative Analysis）是 通过对数据集中某些项目同时出现的概率来发现它们之问的关联关系，其典型的应用是购物篮分析，通过分析购物篮中不同商品之间的关联，分析消费者的购买行为习惯，从而制定相应的营销策略，为商品促销、产品定价、位置摆放等提供支持，并且可用于对不同消费者群体的划分。

关联分析主要包括 Apriori算法和 FP-growth算法。

4. 回归分析

回归分析是一种 研究自变量和因变量之间关系的预测模型，用于分析当自变量发生变化时因变量的变化值，要求自变量相互独立。

① 线性回归

应用线性回归进行分析时要求自变量是连续型，线性回归用直线（回归线）建立因变量和一个或多个自变量之间的关系。

② 逻辑回归

逻辑（Logistic）回归是数据分析中的常用算法，其输出的是概率估算值，将此值用 Sigmoid 函数进行映射到 [0，1] 区间，即可用来实现样本分类。逻辑回归对样本量有一定要求，在样本量较少时，概率估计的误差较大。

③ 多项式回归

在回归分析中有时会遇到线性回归的直线拟合效果不佳，如果发现 散点图中数据点呈多项式曲线时，可以考虑使用多项式回归来分析。使用多项式回归可以降低模型的误差，但是如果处理不当易造成模型过拟合，在回归分析完成之后需要对结果进行分析，并将结果可视化以查看其拟合程度。

④ 岭回归

岭回归在共线性数据分析中应用较多，也称为脊回归，它是一种有偏估计的回归方法，是在最小二乘估计法的基础上做了改进，通过舍弃最小二乘法的无偏性，使回归系数更加稳定和稳健。其中 R方值会稍低于普通回归分析方法，但回归系数更加显著，主要用于变量间存在共线性和数据点较少时。

⑤ LASSO 回归

LASSO 回归的特点与岭回归类似，在拟合模型的同时进行变量筛选和复杂度调整。变量筛选是逐渐把变量放入模型从而得到更好的自变量组合。复杂度调整是通过参数调整来控制模型的复杂度，例如减少自变量的数量等，从而避免过拟合。LASSO 回归也是 擅长处理多重共线性或存在一定噪声和冗余的数据，可以支持连续型因变量、二元、多元离散变量的分析。

5. 深度学习

深度学习方法是通过使用多个隐藏层和大量数据来学习特征，从而提升分类或预测的准确性，与传统的神经网络相比，不仅在层数上较多，而且采用了逐层训练的机制来训练整个网络，以防出现梯度扩散。

深度学习包括受限玻尔兹曼机（RBM）、深度信念网（DBN）、卷积神经网络（CNN）、层叠自动编码器（SAE）、深度神经网络（DNN）、循环神经网络（RNN）、对抗神经网络（GAN）以及各种变种网络结构。

这些深度神经网络都可以对训练集数据进行特征提取和模式识别，然后应用于样本的分类。

全面了解机器学习

一、基本认识

1. 介绍