数字化转型:概念性名词浅谈(第二十六讲)

发布于:2025-05-10 ⋅ 阅读:(21) ⋅ 点赞:(0)

大家好,今天接着介绍数字化转型的概念性名词系列。

(1)机器学习——决策树

决策树是一种常用的机器学习算法,广泛应用于分类和回归任务。决策树通过一系列规则对数据进行分类,具有易于理解和实现的特点。

决策树的基本概念

决策树模型是一种树形结构,其中每个内部节点表示一个属性的测试,每个分支代表一个测试输出,每个叶节点代表一种类别。决策树的生成过程主要包括特征选择、决策树生成和决策树剪枝1

特征选择

特征选择是从训练数据中选择一个特征作为当前节点的分裂标准。常用的特征选择方法包括信息增益、信息增益率和基尼指数1

  • 信息增益:衡量选择某个属性进行划分时信息熵的变化。信息增益越大,表示该属性越适合作为划分标准。

  • 信息增益率:解决信息增益偏向取值较多特征的问题,通过引入属性本身的分散程度来衡量。

  • 基尼指数:用于衡量数据集的不纯度,基尼指数越小,表示数据集越纯。

决策树生成

决策树生成是根据选择的特征评估标准,从上至下递归地生成子节点,直到数据集不可分则停止生长。常见的决策树算法包括ID3、C4.5和CART1

  • ID3算法:使用信息增益作为分裂规则,适用于离散数据。

  • C4.5算法:改进了ID3算法,使用信息增益率作为分裂规则,支持连续数据。

  • CART算法:使用基尼指数作为分裂标准,生成二叉树,支持连续数据。



  •  

(2)机器学习——支持向量机

支持向量机(Support Vector Machine, SVM)是一类按监督学习(supervised learning)方式对数据进行二元分类的广义线性分类器(generalized linear classifier),其决策边界是对学习样本求解的最大边距超平面(maximum-margin hyperplane)。

SVM使用铰链损失函数(hinge loss)计算经验风险(empirical risk)并在求解系统中加入了正则化项以优化结构风险(structural risk),是一个具有稀疏性和稳健性的分类器 。SVM可以通过核方法(kernel method)进行非线性分类,是常见的核学习(kernel learning)方法之一 。

线性SVM(linear SVM)

 硬边距(hard margin)

给定输入数据和学习目标:

 ,硬边界SVM是在线性可分问题中求解最大边距超平面(maximum-margin hyperplane)的算法,约束条件是样本点到决策边界的距离大于等于1。硬边界SVM可以转化为一个等价的二次凸优化(quadratic convex optimization)问题进行求解。

(3)机器学习——神经网络

人工神经网络(Artificial Neural Network,即ANN ),是20世纪80 年代以来人工智能领域兴起的研究热点。它从信息处理角度对人脑神经元网络进行抽象, 建立某种简单模型,按不同的连接方式组成不同的网络。在工程与学术界也常直接简称为神经网络或类神经网络。神经网络是一种运算模型,由大量的节点(或称神经元)之间相互联接构成。每个节点代表一种特定的输出函数,称为激励函数(activation function)。每两个节点间的连接都代表一个对于通过该连接信号的加权值,称之为权重,这相当于人工神经网络的记忆。网络的输出则依网络的连接方式,权重值和激励函数的不同而不同。而网络自身通常都是对自然界某种算法或者函数的逼近,也可能是对一种逻辑策略的表达。

最近十多年来,人工神经网络的研究工作不断深入,已经取得了很大的进展,其在模式识别、智能机器人、自动控制、预测估计、生物、医学、经济等领域已成功地解决了许多现代计算机难以解决的实际问题,表现出了良好的智能特性。

今天要介绍的就是这么多,我们下篇文章再见。


网站公告

今日签到

点亮在社区的每一天
去签到