一、单项选择题(15题 每题 2 分,共 30 分)
二、判断题(10题 每题 2 分,共 20 分)
三、简答题( 4 题 共 20 分)
四、综合应用题(2题 每题 15 分,共 30 分)
数学基础
特征值分解
奇异值分解
拉格朗日乘子
协方差矩阵
TR
复习
基础知识
要求 :基本概念
要求 :数据集划分
要求 :性能度量
要求 :可以描述任务之间的关系
要求 :可以描述各算法的特点,同类任务不同算法的特点及其之间的区别等
监督学习:
无监督学习:
回归:有监督学习 标签为连续值 估计多个变量之间关系的一个统计过程,回归广泛应用于预测和预报,算法有:线性回归 决策树 支持向量回归
分类:有监督学习 标签为离散值 利用训练集来判断新数据点的类别的过程 是机器学习和模式识别领域最常见的任务 算法有:支持向量机 决策树 逻辑回归 贝叶斯分类 神经网络
聚类:无监督学习 标签未知 聚类是根据某种相似性 把一组数据划分成若干簇的过程 聚类算法:原型聚类 层次聚类 密度聚类
降维:PCA是无监督学习 LDA是有监督学习 降维是根据某种规则对高纬度数据进行维度约减的过程 实际应用中降维和回归 分类 聚类算法 联合使用 算法有:主成分分析PCA(无监督学习)线性判别分析LDA(有监督学习)
模型评估与选择:经验误差 泛化误差的概念 过拟合和欠拟合的概念 评估方法:留出法 交叉验证法 自助法 性能度量:方差 错误率 精度 查全率 查准率 ROC AUC
线性回归
任务:回归 或 多元回归
思想:最小化所有数据点到分类平面的均方误差
模型:凸优化函数
算法:最小二乘法 求解析解 严格的公式求解
算法特点:
要求:
可以按照自己的理解简述线性回归问题,掌握线性回归算法特点。
可以对简单数据进行计算。
逻辑回归
任务:线性分类
思想:最大化数据点的似然函数
模型:
算法:求近似解 梯度下降 牛顿法
掌握:
逻辑回归和线性回归的区别和联系,逻辑回归算法特点
梯度下降、牛顿法的基本原理 迭代公式
进行简单的数据运算
决策树 这个会考计算题
任务:回归或分类
思想:采用分而治之的思想对数据进行递归划分
模型:树形结构 采用特定准则选取属性
算法:ID3 C4.5 CART
三种不同的算法选择属性采用的准则不同:
ID3算法 采用信息增益 定义如下:
C4.5算法采用的是信息增益率 CART算法采用的是基尼指数
预剪枝和后剪枝
对连续值与缺失值的处理
感知机
任务:线性二分类 非线性不可分 比如异或
思想:最小化误分类的点到分类平面的距离
算法:梯度下降
模型特点
PPT例子
多层神经网络
任务:线性分类 或 非线性分类
思想:利用多层神经网络对非线性的数据进行分类
算法:误差逆传播 梯度下降+链式法则
按照自己的理解简述基本神经元 多层网络模型 算法特点
BP的基本原理和迭代公式
支持向量机
任务:分类 回归
思想:最大化数据点到超平面的最短距离
模型:
算法:凸二次规划可解,效率低! 采用拉格朗日乘子法 + 对偶问题
要求:
支持向量机和其他算法的区别
简述软间隔支持向量机并简述和常规支持向量机的关系和区别
了解SMO算法
主成分分析 PCA (重点)
任务:非监督降维
思想:最大化投影后数据的方差 最小化重建误差
模型:非凸优化模型
算法:特征值分解 解析解
PCA算法的过程:
- 中心化 A = X - X均
- 计算协方差矩阵 C = A*AT
- 特征值分解
- 根据特征值选取特征向量构建投影矩阵
- 输入原样本投影至新子空间完成降维
要求:
PCA算法的特点
核化PCA
线性判别分析 LDA
任务:监督降维
思想:最大化类间散度矩阵 最小化类内散度矩阵
模型:非凸优化模型
算法:广义特征值问题 求解析解
LDA算法流程:
- 计算每个类的类中心 和所有样本的中心
- 计算类内散度矩阵和累间散度矩阵
- 计算S = SW-1 * Sb
- 对S进行特征值分解 并根据特征值选择特征向量构建投影矩阵
- 输入原样本投影至新子空间完成降维
掌握LDA算法和PCA算法的区别和联系
掌握LDA算法的流程
进行简单的数据运算
K均值聚类
劳埃德算法流程