也是结束数据分析,来到了机器学习的阶段了,第一张概述对这个阶段的所有内容做个简单了解
人工智能概述
什么是人工智能?
Artificial Intelligence(AI)
是一个研究领域,像人一样、机器智能的综合与分析
研究目标:使用计算机来模拟或者代替人类
机器学习
Machine Learning(ML)
从数据中获取规律;来了一个新数据,产生一个新预测;
这个规律就是模型,可有理解成y = kx+b
深度学习
Deep Learning(DL)
深度神经网络,大脑仿生,设计一层一层的神经元模拟万事万物
三者间的关系
机器学习是实现人工智能的一种途径
深度学习是机器学习的一种方法
学习方式
基于规则的学习
程序员根据经验利用手工的if-else方式进行预测
有很多问题无法明确的写下规则,此时我们无法使用规则学习的方式来解决这一类问题,比如:图像和语音识别和自然语言处理
于是引出了:
基于模型的学习
从数据中自动学出规律
举个例子:
1 利用线性关系来模拟面积和房价之间的关系
让直线尽可能多的经过这些点,不能经过的点分布直线两侧
2 机器学习模型
直线记成y = ax + b 就是模型,其中 a、b 就是我们要训练的模型参数
机器学习的应用领域和发展史
应用领域
计算机视觉CV:对人看到的东西进行理解
自然语言处理:对人交流的东西进行理解
数据挖掘和数据分析:也属于人工智能的范畴
发展史
•1956年人工智能元年
•2012年计算机视觉深度神经网络方法研究兴起
•2017年自然语言处理应用大幕拉开
•2022年chatGPT的出现,引起AIGC的发展
人工智能发展三要素
机器学习常用术语
样本、特征、标签
样本(sample) :一行数据就是一个样本;多个样本组成数据集;有时一条样本被叫成一条记录
特征(feature) :一列数据一个特征,有时也被称为属性
标签/目标(label/target) :模型要预测的那一列数据。本场景是就业薪资
就业薪资 与 培训学科、作业考试、学历、工作经验、工作地点 5个特征有关系
特征如何理解(重点):特征是从数据中抽取出来的,对结果预测有用的信息 eg:房价预测、车图片识别
数据集划分
数据集可划分两部分:训练集、测试集 比例:8 : 2,7 : 3(一般都是这个比例)
训练集(training set) :用来训练模型(model)的数据集
测试集(testing set):用来测试模型的数据集
机器学习的算法分类
有监督学习
有监督分类问题&回归问题
分类问题
回归问题
无监督学习
定义:输入数据没有被标记,即样本数据类别未知,没有标签,
根据样本间的相似性,对样本集聚类,以发现事物内部结构及相互关系。
特点:1 训练数据无标签
2 根据样本间的相似性对样本集进行聚类,发现事物内部结构及相互关系
半监督学习
工作原理:
1 让专家标注少量数据,利用已经标记的数据(也就是带有类标签)训练出一个模型
2 再利用该模型去套用未标记的数据
3 通过询问领域专家分类结果与模型分类结果做对比,从而对模型做进一步改善和提高
半监督学习方式可大幅降低标记成本
强化学习
1 强化学习(Reinforcement Learning):机器学习的一个重要分支
2 应用场景:里程碑AlphaGo围棋、各类游戏、对抗比赛、无人驾驶场景
3 基本原理:通过构建四个要素:agent,环境状态,行动,奖励,
agent根据环境状态进行行动获得最多的累计奖励。
举个例子:
总结
机器学习建模流程
1 获取数据
获取经验数据
图像数据
文本数据
.......
2 数据基本处理
数据缺失值处理
异常值处理
3 特征工程
特征提取
特征预处理
特征降维
......
4 机器学习(模型训练)
线性回归
逻辑回归
决策树
GBDT
5 模型评估
回归评测指标
分类评测指标
聚类评测指标
特征工程概念入门
特征的定义 Feature
特征是指事物或对象所具有的独特属性或标志,用于描述、区分或识别该事物。在数据分析、机器学习、统计学等领域,特征通常指数据集中的变量或维度,用于构建模型或进行分析
特征工程
特征提取
从原始数据中提取与任务相关的特征
特征预处理
特征对模型产生影响;因量纲问题,有些特征对模型影响大、有些影响小
特征降维
将原始数据的维度降低,叫做特征降维
特征选择
原始数据特征很多,但是对模型训练相关是其中一个特征集合子集
特征组合
多个的特征合并成一个特征。一般利用乘法或加法来完成
模型拟合问题
拟合指通过调整模型参数,使模型输出尽可能接近真实数据的过程。在机器学习中,模型通过训练数据学习规律,目标是泛化到未知数据。
欠拟合(Underfitting)
模型过于简单,无法捕捉数据中的基本模式。表现包括训练集和测试集误差均较高。常见原因:
- 模型复杂度不足(如线性模型拟合非线性数据)
- 特征不足或未充分训练
解决方法:
增加模型复杂度(如更高阶多项式、更深神经网络)
引入更多有效特征或延长训练时间
过拟合(Overfitting)
模型过度依赖训练数据细节(如噪声),导致泛化能力差。表现包括训练误差低但测试误差高。常见原因:
- 模型复杂度过高
- 训练数据量不足或噪声过多
解决方法:
使用正则化(L1/L2正则化)
增加数据量或数据增强
采用早停(Early Stopping)、Dropout(神经网络)
交叉验证选择最佳模型
机器学习的开发环境
基于Python的 scikit-learn 库
1.简单高效的数据挖掘和数据分析工具2.可供大家使用,可在各种环境中重复使用3.建立在NumPy,SciPy和matplotlib上4.开源,可商业使用-获取BSD许可证