机器学习期末

发布于:2025-04-18 ⋅ 阅读:(28) ⋅ 点赞:(0)

选择题

  1. 以下哪项不是机器学习的类型?
    A. 监督学习
    B.无监督学习
    C.半监督学习
    D.全监督学习

D

  1. 哪一个是机器学习的合理定义?
    A、机器学习是计算机编程的科学
    B、机器学习从标记的数据中学习
    C、机器学习是允许机器人智能行动的领域
    D、机器学习能使计算机能够在没有明确编程的情况下学习

D

  1. 以下哪项是计算机视觉中用于自动图片标注的核心技术?
    A. 决策树
    B. 卷积神经网络(CNN)
    C. 支持向量机(SVM)
    D. 随机森林

B。
CNN能自动提取图像特征,是计算机视觉中的核心技术;
支持向量机在许多分类任务中很有效;

  1. 下列不属于机器学习的主要流派的是

A.符号主义
B.联想主义(联结主义)
C.进化主义
D.行为类推主义

B。联结主义(或称连接主义)是指神经网络等方法,它强调通过神经元的连接模拟学习过程。这个术语通常用于神经网络或深度学习,并不是机器学习的一个独立流派,而是属于其中的一部分。

  1. 以下哪种损失函数通常用于回归任务?
    A) 交叉熵损失
    B) 合页损失(Hinge Loss)
    C) 均方误差(MSE)
    D) KL散度

C。A) 交叉熵损失:交叉熵损失函数通常用于分类任务,尤其是用于衡量分类任务中预测的概率分布与真实标签之间的差异,因此不适用于回归任务。
B) 合页损失(Hinge loss):合页损失函数通常用于支持向量机(SVM)中的分类任务,而不是回归任务。它通过计算预测结果与正确标签之间的“合页”距离来进行优化。
C) 均方误差损失(MSE):均方误差(MSE)是回归任务中最常用的损失函数,它通过计算预测值与真实值之间的平方差来度量模型的表现。在回归问题中,目标是最小化这个损失函数。
D) KL散度损失:Kullback-Leibler散度(KL散度)用于衡量两个概率分布之间的差异,虽然它在一些生成模型(如变分自编码器)中会使用,但它通常不用于回归任务。

  1. 关于机器学习中偏差(Bias)与方差(Variance)的权衡,以下哪种说法​​错误​​?
    A. 增加模型复杂度通常会降低偏差,但可能增加方差
    B. 集成方法(如Bagging)通过降低方差来提升泛化性能
    C. 正则化(如L2正则化)通过增加偏差来减少方差
    D. 高偏差问题表明模型对训练数据的拟合不足,应减少正则化强度

D
A. 增加模型复杂度通常会降低偏差,但可能增加方差:这个选项是正确的。通常,随着模型复杂度的增加(例如增加参数或采用更复杂的模型),模型可以更好地拟合训练数据,从而降低偏差。然而,模型复杂度增加也可能导致过拟合,使模型在训练数据上表现很好,但在测试数据上表现较差,导致方差增大。
B. 集成方法(如Bagging)通过降低方差来提升泛化性能:这个选项是正确的。集成方法(如Bagging)通过组合多个弱模型来降低方差,尤其是在数据噪声较大的情况下。Bagging通过训练多个独立的模型,并将它们的预测结果结合起来,从而减少模型的方差,提升泛化能力。
C. 正则化(如L2正则化)通过增加偏差来减少方差:这个选项是正确的。正则化(例如L2正则化)通过对模型的复杂度进行约束,限制模型的自由度,防止过拟合。虽然正则化可能会增加偏差,但它通常能显著减少方差,从而改善模型的泛化能力。
D. 高偏差问题表明模型对训练数据的拟合不足,应减少正则化强度:这个选项是错误的。高偏差通常意味着模型过于简单,无法有效捕捉数据中的复杂模式(即欠拟合)。在这种情况下,应该 增加模型复杂度 或 减少正则化强度,以便模型能够更好地拟合训练数据。然而,如果模型已经很复杂,过度减少正则化可能会导致方差增加,并引发过拟合问题。因此,问题的描述中,“应减少正则化强度”在特定情况下可能不适用,尤其当模型复杂度已经足够时,反而需要适度增加正则化。
在这里插入图片描述

  1. 混淆矩阵的精度表示公式为:
    A. TP/(TP+FN)
    B. TP/(TP+FP)
    C. TN/(TN+FN)
    D. TN/(TN+TP)

B.
精度表示的是模型预测为正的实例中,实际上为正的比例,计算公式为 TP/(TP+FP)
A. TP / (TP + FN):这个公式表示的是召回率(Recall),也叫敏感度,即模型正确识别的正类实例占所有真实正类实例的比例。
C. TN / (TN + FN):这个公式表示的是特异度(Specificity),也叫真负率,即模型正确识别的负类实例占所有真实负类实例的比例。

  1. 以下哪种数据类型允许进行算术运算,但不具有绝对零点?
    A) 名义变量
    B) 序数变量
    C) 间隔变量
    D) 比率变量

C

  1. 以下哪项是机器学习模型的过拟合现象?
    A.模型在训练数据上表现良好,但在测试数据表现不佳
    B.模型在训练数据上表现不佳,但在测试数据表现良好
    C.模型在训练数据和测试数据表现良好
    D.模型在训练数据和测试数据表现不佳

A

  1. 在机器学习中,以下哪种算法属于监督学习?
    A.K-Means 聚类
    B.主成分分析(PCA)
    C.支持向量机(SVM)
    D.自编码器

C
监督学习需要利用带有标签的数据进行训练,ACD都是无监督学习
常见的监督学习种类:

  • 支持向量机(SVM):SVM 是一种用于二分类和多分类任务的强大算法。它通过找到一个最优的超平面来将不同类别的数据分隔开。SVM在高维空间中表现良好,并且可以应用于线性和非线性分类问题。
  • 决策树(Decision Trees):决策树是一种基于树结构的分类和回归算法。它通过在特征上进行递归的二分决策来进行分类或预测。决策树易于理解和解释,并且对于数据的处理具有良好的适应性。
  • 逻辑回归(Logistic Regression):逻辑回归是一种广泛应用于二分类问题的线性模型。尽管名字中带有"回归",但它主要用于分类任务。逻辑回归输出预测的概率,并使用逻辑函数将连续输出映射到[0, 1]的范围内。
  • K近邻算法(K-Nearest Neighbors,KNN):KNN 是一种基于实例的学习方法。它根据距离度量来对新样本进行分类或回归预测。KNN使用最接近的K个训练样本的标签来决定新样本的类别。
  1. 以下关于机器学习算法应用场景的描述中,错误的是:
    A. 朴素贝叶斯算法常用于文本分类任务中的垃圾邮件过滤
    B. 循环神经网络(RNN)特别适合处理时间序列数据,如股票价格预测
    C. 聚类算法(如 K-Means)需要标注好的训练样本才能划分数据类别
    D. 强化学习在自动驾驶领域中通过试错机制优化决策策略

C
聚类算法(如K-Means)属于​​无监督学习​​,其核心特点是不依赖标注数据,而是通过数据内在结构(如距离、密度)自动划分类别。
标注数据是监督学习的要求。

  1. 哪个不是测量中心倾向的方法
    A均值。B中位数。C众数。D方差

D
中心倾向指标用于描述数据集的“中心位置”或典型值,方差​​属于​​离散程度指标​​,衡量数据分布的波动性或分散程度(如数据偏离均值的程度),而非中心位置。

  1. 在机器学习中,当出现过拟合(Overfitting)现象时,以下哪种方法不能用来解决这个问题?
    A. 增加训练数据
    B. 增加模型复杂度
    C. 使用数据增强(如翻转、旋转、添加噪声)
    D. 使用更强的正则化方法(如 dropout、drop - connect、L₂)

B
增加模型复杂度通常会降低偏差,但可能增加方差

  1. 支持向量机算法属于 ()
    A. 决策树学习
    B. 统计学习
    C. 集成学习
    D.记忆学习

B

  1. 以下属于解决模型欠拟合的方法是?
    A、增加训练数据量
    B、对模型进行裁剪
    C、增加训练过程的迭代次数
    D、正则化

C.

对于 B,增加训练数据量​​,常用于解决过拟合(通过数据多样性增强泛化能力),而非改善欠拟合。若模型复杂度不足,增加数据可能无济于事。

  1. 在边缘检测中,以下哪种算子对噪声最敏感,且未进行高斯平滑处理?

A. Sobel 算子
B. Prewitt 算子
C. Canny 算子
D. Laplacian 算子

D

  1. 在卷积神经网络(CNN)中,关于池化层(Pooling Layer)的作用,以下哪项描述是错误的?

A. 池化层通过降采样减少特征图的空间尺寸,从而降低计算复杂度。
B. 最大池化(Max Pooling)能够保留局部区域的显著特征,增强模型的平移不变性。
C. 平均池化(Average Pooling)通过计算局部区域的平均值,有助于抑制噪声影响。
D. 池化层通过反向传播自动学习最优的池化核参数,类似于卷积层的权重更新。

D
池化层(如最大池化、平均池化)是​​无参数操作​​,其核内计算(如取最大值/平均值)是预定义的,不涉及权重学习。

  1. 在深度神经网络的训练过程中,若遇到梯度消失问题,下面哪种方案最能有效缓解这一问题?
    A. 继续使用 Sigmoid 激活函数
    B. 提高学习率以加速梯度传递
    C. 将激活函数替换为 ReLU 或其变体(如 Leaky ReLU)
    D. 增加网络层数,以强化模型的特征提取能力

C

  1. 假设有一个钓鱼式攻击或恶意软件分类模型,其中钓鱼式攻击网站和恶意软件网站属于标记为 1(true)的类别,无害网站属于标记为 0(false)的类别。此模型误将合法网站归类为恶意软件。这叫什么?
    A、假负例
    B、真正例
    C、真负例
    D、假正例

D
注意这里将钓鱼网站定义为正例。

  1. 以下哪一项不是单神经元模型的组成部分?
    A. 输入特征x
    B. 激活函数g
    C. 损失函数L
    D. 输入特征x的平方

B

  1. 在机器学习中,特征归一化的目的是什么

A. 增加模型的复杂度
B. 加快模型的训练
C. 使不同特征的数值范围一致
D. 减少特征之间的相关性

C

  1. 以下哪种方法可以缓解过拟合(Overfitting)?
    A. 减少训练数据量 B. 增加模型复杂度 C. 添加L2正则化 D. 删除部分特征

C
虽然正则化可能带来偏差,但能极大降低方差,缓解过拟合
此外,增加数据也能缓解过拟合

  1. 在逻辑回归中,假设函数 hθ​(x)=g(θTx) 使用的激活函数 g(z) 是:
    A. Sigmoid 函数
    B. ReLU 函数
    C. 双曲正切函数
    D. 恒等函数

A

  1. 以下关于降维说法不正确的是?
    A.降维是将训练样本从高维空间转换到低维空间
    B.降维有助于数据可视化
    C.通过降维可以更有效地挖掘有意义的数据结构
    D.降维不会对数据产生损伤

D

  1. 决策树学习的关键是?
    A.初始结点选择
    B.剪枝
    C.选择最优划分属性
    D.分枝

C

  1. 线性回归和逻辑回归属于无监督学习算法

错误
回归是监督学习的一种任务

  1. Sigmoid函数是一种通用的激活函数,现在大多数情况下都在使用

错误

  • Sigmoid 的导数在输入值较大或较小时趋近于零,导致反向传播时梯度几乎消失,深层网络难以训练。
  • Sigmoid 的输出范围是 (0,1),导致后续层的输入始终为正,可能引发参数更新时的锯齿形路径,降低收敛效率。
  • Sigmoid 涉及指数运算,计算成本高于 ​​ReLU​​ 的简单阈值操作(max(0,x))。
    ​​
    当前主流激活函数​​为 ​​ReLU 及其变体​​
  1. 贝叶斯优化(Bayesian Optimization)在超参数调优过程中不依赖任何先验假设,仅通过随机采样选择下一组评估的超参数。

错误

  1. 当出现过拟合时,验证集损失(Validation loss)会一直下降。

错误
验证损失持续下降通常表明模型仍在有效学习,而过拟合的标志是验证损失在达到最低点后明显回升

  1. 在深度神经网络中,Dropout 技术仅在训练阶段启用以减少过拟合,而在测试阶段禁用 Dropout,从而确保所有神经元都参与前向传播。

正确

  1. 在机器学习中,K近邻(KNN)算法在训练阶段不需要进行模型训练,直接存储所有训练数据即可。

正确

  1. 无监督学习不需要任何标签数据,完全依靠算法自动发现数据中的模式或结构。

错误

  1. 在机器学习任务中,如果目标是预测一个网站明天是否被DDoS攻击(是/否),那么这属于一个回归问题。

错误,这是一个分类问题(具体为二分类任务)

  1. 主成分分析(PCA)是一种数据增维方法

错误
PCA 通过正交变换将原始高维数据投影到低维空间(主成分),​​保留最大方差的方向​​,从而减少特征数量、去除冗余信息,属于典型的​​降维技术​​。

  1. 聚类只能在已有数据集上进行分簇,不具备对新数据的预测能力

正确

  1. 在神经网络中,在反向传播的向后传递过程中,从输入层开始计算误差信号(δ),然后向前传播到输出层。

错误。在神经网络中,反向传播的误差信号(δ)是从输出层开始计算,然后向后传递(即向输入层方向传播),而非从输入层开始向前传播。​


网站公告

今日签到

点亮在社区的每一天
去签到