机器学习期末-EW帮帮网

选择题

以下哪项不是机器学习的类型？
A. 监督学习
B.无监督学习
C.半监督学习
D.全监督学习

哪一个是机器学习的合理定义?
A、机器学习是计算机编程的科学
B、机器学习从标记的数据中学习
C、机器学习是允许机器人智能行动的领域
D、机器学习能使计算机能够在没有明确编程的情况下学习

以下哪项是计算机视觉中用于自动图片标注的核心技术？
A. 决策树
B. 卷积神经网络（CNN）
C. 支持向量机（SVM）
D. 随机森林

B。
CNN能自动提取图像特征，是计算机视觉中的核心技术；
支持向量机在许多分类任务中很有效；

下列不属于机器学习的主要流派的是

A.符号主义
B.联想主义（联结主义）
C.进化主义
D.行为类推主义

B。联结主义（或称连接主义）是指神经网络等方法，它强调通过神经元的连接模拟学习过程。这个术语通常用于神经网络或深度学习，并不是机器学习的一个独立流派，而是属于其中的一部分。

以下哪种损失函数通常用于回归任务？
A) 交叉熵损失
B) 合页损失（Hinge Loss）
C) 均方误差（MSE）
D) KL散度

C。A) 交叉熵损失：交叉熵损失函数通常用于分类任务，尤其是用于衡量分类任务中预测的概率分布与真实标签之间的差异，因此不适用于回归任务。
B) 合页损失（Hinge loss）：合页损失函数通常用于支持向量机（SVM）中的分类任务，而不是回归任务。它通过计算预测结果与正确标签之间的“合页”距离来进行优化。
C) 均方误差损失（MSE）：均方误差（MSE）是回归任务中最常用的损失函数，它通过计算预测值与真实值之间的平方差来度量模型的表现。在回归问题中，目标是最小化这个损失函数。
D) KL散度损失：Kullback-Leibler散度（KL散度）用于衡量两个概率分布之间的差异，虽然它在一些生成模型（如变分自编码器）中会使用，但它通常不用于回归任务。

关于机器学习中偏差（Bias）与方差（Variance）的权衡，以下哪种说法错误？
A. 增加模型复杂度通常会降低偏差，但可能增加方差
B. 集成方法（如Bagging）通过降低方差来提升泛化性能
C. 正则化（如L2正则化）通过增加偏差来减少方差
D. 高偏差问题表明模型对训练数据的拟合不足，应减少正则化强度

D
A. 增加模型复杂度通常会降低偏差，但可能增加方差：这个选项是正确的。通常，随着模型复杂度的增加（例如增加参数或采用更复杂的模型），模型可以更好地拟合训练数据，从而降低偏差。然而，模型复杂度增加也可能导致过拟合，使模型在训练数据上表现很好，但在测试数据上表现较差，导致方差增大。
B. 集成方法（如Bagging）通过降低方差来提升泛化性能：这个选项是正确的。集成方法（如Bagging）通过组合多个弱模型来降低方差，尤其是在数据噪声较大的情况下。Bagging通过训练多个独立的模型，并将它们的预测结果结合起来，从而减少模型的方差，提升泛化能力。
C. 正则化（如L2正则化）通过增加偏差来减少方差：这个选项是正确的。正则化（例如L2正则化）通过对模型的复杂度进行约束，限制模型的自由度，防止过拟合。虽然正则化可能会增加偏差，但它通常能显著减少方差，从而改善模型的泛化能力。
D. 高偏差问题表明模型对训练数据的拟合不足，应减少正则化强度：这个选项是错误的。高偏差通常意味着模型过于简单，无法有效捕捉数据中的复杂模式（即欠拟合）。在这种情况下，应该增加模型复杂度或减少正则化强度，以便模型能够更好地拟合训练数据。然而，如果模型已经很复杂，过度减少正则化可能会导致方差增加，并引发过拟合问题。因此，问题的描述中，“应减少正则化强度”在特定情况下可能不适用，尤其当模型复杂度已经足够时，反而需要适度增加正则化。
在这里插入图片描述

混淆矩阵的精度表示公式为：
A. TP/(TP+FN)
B. TP/(TP+FP)
C. TN/(TN+FN)
D. TN/(TN+TP)

B.
精度表示的是模型预测为正的实例中，实际上为正的比例，计算公式为 TP/(TP+FP)
A. TP / (TP + FN)：这个公式表示的是召回率（Recall），也叫敏感度，即模型正确识别的正类实例占所有真实正类实例的比例。
C. TN / (TN + FN)：这个公式表示的是特异度（Specificity），也叫真负率，即模型正确识别的负类实例占所有真实负类实例的比例。

以下哪种数据类型允许进行算术运算，但不具有绝对零点？
A) 名义变量
B) 序数变量
C) 间隔变量
D) 比率变量

以下哪项是机器学习模型的过拟合现象？
A.模型在训练数据上表现良好，但在测试数据表现不佳
B.模型在训练数据上表现不佳，但在测试数据表现良好
C.模型在训练数据和测试数据表现良好
D.模型在训练数据和测试数据表现不佳

在机器学习中，以下哪种算法属于监督学习？
A.K-Means 聚类
B.主成分分析（PCA）
C.支持向量机（SVM）
D.自编码器

C
监督学习需要利用带有标签的数据进行训练，ACD都是无监督学习
常见的监督学习种类：

支持向量机（SVM）：SVM 是一种用于二分类和多分类任务的强大算法。它通过找到一个最优的超平面来将不同类别的数据分隔开。SVM在高维空间中表现良好，并且可以应用于线性和非线性分类问题。
决策树（Decision Trees）：决策树是一种基于树结构的分类和回归算法。它通过在特征上进行递归的二分决策来进行分类或预测。决策树易于理解和解释，并且对于数据的处理具有良好的适应性。
逻辑回归（Logistic Regression）：逻辑回归是一种广泛应用于二分类问题的线性模型。尽管名字中带有"回归"，但它主要用于分类任务。逻辑回归输出预测的概率，并使用逻辑函数将连续输出映射到[0, 1]的范围内。
K近邻算法（K-Nearest Neighbors，KNN）：KNN 是一种基于实例的学习方法。它根据距离度量来对新样本进行分类或回归预测。KNN使用最接近的K个训练样本的标签来决定新样本的类别。

以下关于机器学习算法应用场景的描述中，错误的是：
A. 朴素贝叶斯算法常用于文本分类任务中的垃圾邮件过滤
B. 循环神经网络（RNN）特别适合处理时间序列数据，如股票价格预测
C. 聚类算法（如 K-Means）需要标注好的训练样本才能划分数据类别
D. 强化学习在自动驾驶领域中通过试错机制优化决策策略

C
聚类算法（如K-Means）属于无监督学习，其核心特点是不依赖标注数据，而是通过数据内在结构（如距离、密度）自动划分类别。
标注数据是监督学习的要求。

哪个不是测量中心倾向的方法
A均值。B中位数。C众数。D方差

D
中心倾向指标用于描述数据集的“中心位置”或典型值，方差属于离散程度指标，衡量数据分布的波动性或分散程度（如数据偏离均值的程度），而非中心位置。

在机器学习中，当出现过拟合（Overfitting）现象时，以下哪种方法不能用来解决这个问题？
A. 增加训练数据
B. 增加模型复杂度
C. 使用数据增强（如翻转、旋转、添加噪声）
D. 使用更强的正则化方法（如 dropout、drop - connect、L₂）

B
增加模型复杂度通常会降低偏差，但可能增加方差

支持向量机算法属于（）
A. 决策树学习
B. 统计学习
C. 集成学习
D.记忆学习

以下属于解决模型欠拟合的方法是？
A、增加训练数据量
B、对模型进行裁剪
C、增加训练过程的迭代次数
D、正则化

对于 B，增加训练数据量，常用于解决过拟合（通过数据多样性增强泛化能力），而非改善欠拟合。若模型复杂度不足，增加数据可能无济于事。

在边缘检测中，以下哪种算子对噪声最敏感，且未进行高斯平滑处理？

A. Sobel 算子
B. Prewitt 算子
C. Canny 算子
D. Laplacian 算子

在卷积神经网络（CNN）中，关于池化层（Pooling Layer）的作用，以下哪项描述是错误的？

A. 池化层通过降采样减少特征图的空间尺寸，从而降低计算复杂度。
B. 最大池化（Max Pooling）能够保留局部区域的显著特征，增强模型的平移不变性。
C. 平均池化（Average Pooling）通过计算局部区域的平均值，有助于抑制噪声影响。
D. 池化层通过反向传播自动学习最优的池化核参数，类似于卷积层的权重更新。

D
池化层（如最大池化、平均池化）是无参数操作，其核内计算（如取最大值/平均值）是预定义的，不涉及权重学习。

在深度神经网络的训练过程中，若遇到梯度消失问题，下面哪种方案最能有效缓解这一问题？
A. 继续使用 Sigmoid 激活函数
B. 提高学习率以加速梯度传递
C. 将激活函数替换为 ReLU 或其变体（如 Leaky ReLU）
D. 增加网络层数，以强化模型的特征提取能力

假设有一个钓鱼式攻击或恶意软件分类模型，其中钓鱼式攻击网站和恶意软件网站属于标记为 1（true）的类别，无害网站属于标记为 0（false）的类别。此模型误将合法网站归类为恶意软件。这叫什么？
A、假负例
B、真正例
C、真负例
D、假正例

D
注意这里将钓鱼网站定义为正例。

以下哪一项不是单神经元模型的组成部分？
A. 输入特征x
B. 激活函数g
C. 损失函数L
D. 输入特征x的平方

在机器学习中，特征归一化的目的是什么

A. 增加模型的复杂度
B. 加快模型的训练
C. 使不同特征的数值范围一致
D. 减少特征之间的相关性

以下哪种方法可以缓解过拟合（Overfitting）？
A. 减少训练数据量 B. 增加模型复杂度 C. 添加L2正则化 D. 删除部分特征

C
虽然正则化可能带来偏差，但能极大降低方差，缓解过拟合
此外，增加数据也能缓解过拟合

在逻辑回归中，假设函数 hθ(x)=g(θTx) 使用的激活函数 g(z) 是：
A. Sigmoid 函数
B. ReLU 函数
C. 双曲正切函数
D. 恒等函数

以下关于降维说法不正确的是？
A.降维是将训练样本从高维空间转换到低维空间
B.降维有助于数据可视化
C.通过降维可以更有效地挖掘有意义的数据结构
D.降维不会对数据产生损伤

决策树学习的关键是？
A.初始结点选择
B.剪枝
C.选择最优划分属性
D.分枝

线性回归和逻辑回归属于无监督学习算法

错误
回归是监督学习的一种任务

Sigmoid函数是一种通用的激活函数，现在大多数情况下都在使用

错误

Sigmoid 的导数在输入值较大或较小时趋近于零，导致反向传播时梯度几乎消失，深层网络难以训练。
Sigmoid 的输出范围是 (0,1)，导致后续层的输入始终为正，可能引发参数更新时的锯齿形路径，降低收敛效率。
Sigmoid 涉及指数运算，计算成本高于 ReLU 的简单阈值操作（max(0,x)）。

当前主流激活函数为 ReLU 及其变体

贝叶斯优化（Bayesian Optimization）在超参数调优过程中不依赖任何先验假设，仅通过随机采样选择下一组评估的超参数。

错误

当出现过拟合时，验证集损失（Validation loss）会一直下降。

错误
验证损失持续下降通常表明模型仍在有效学习，而过拟合的标志是验证损失在达到最低点后明显回升

在深度神经网络中，Dropout 技术仅在训练阶段启用以减少过拟合，而在测试阶段禁用 Dropout，从而确保所有神经元都参与前向传播。

正确

在机器学习中，K近邻（KNN）算法在训练阶段不需要进行模型训练，直接存储所有训练数据即可。

正确

无监督学习不需要任何标签数据，完全依靠算法自动发现数据中的模式或结构。

错误

在机器学习任务中，如果目标是预测一个网站明天是否被DDoS攻击（是/否），那么这属于一个回归问题。

错误，这是一个分类问题（具体为二分类任务）

主成分分析（PCA）是一种数据增维方法

错误
PCA 通过正交变换将原始高维数据投影到低维空间（主成分），保留最大方差的方向，从而减少特征数量、去除冗余信息，属于典型的降维技术。

聚类只能在已有数据集上进行分簇，不具备对新数据的预测能力

正确

在神经网络中，在反向传播的向后传递过程中，从输入层开始计算误差信号（δ），然后向前传播到输出层。

错误。在神经网络中，反向传播的误差信号（δ）是从输出层开始计算，然后向后传递（即向输入层方向传播），而非从输入层开始向前传播。

机器学习期末

选择题

网站公告

今日签到

热门文章

最新发布