失眠网 > 机器学习阶段性总结[机器学习]

机器学习阶段性总结[机器学习]

时间：2023-08-15 15:34:28

相关推荐

机器学习阶段性总结[机器学习]

文章目录

分类阶段性测试数据预处理聚类降维

分类阶段性测试

机器学习三要素是？ A B C

A.模型

B.策略

C.算法

D.样本

感知器算法的损失函数是误分类点的总数。错

sklearn 提供的感知器类是 Perceptron，该类实例化的时候一个重要的参数是 eta0请问该参数表示什么？学习率

下述指标常用来评价分类模型的有哪些？ A B C D

A.准确率（accuracy）

==B.精确率（precision） ==

C.召回率（recall）

D.F1-值（F1-score）

E.均方误差

段落说明

现有 10 个样本，6 个阳性（positive），4 个阴性（negative）。模型分别将 2 个阳性和 1

个阴性样本预测错误，其余样本均预测正确。请根据该数据，完成下述四个题目。

模型的准确率（accuracy）是多少？（保留两位小数）0.70

模型的精确率（precision）是多少？（保留两位小数）0.80

模型的召回率（recall）是多少？（保留两位小数）0.67

F1-值（F1-score）是多少？（保留两位小数）0.73

点击率的预测是一个数据比例不平衡问题（比如训练集中样本呈阴性的比例为 99%，阳

性的比例是 1%），如果我们用这种数据建立模型并使得训练集的准确率高达 99%。下列说

法正确的是 D

A.模型的准确率非常高，我们不需要进一步探索

B.不能确定模型是否好，应该进一步探讨精确率（precision），如果精确率高，说明模型

好。

C.训练样本中阳性和阴性样本的比例不影响模型的性能。

D.不能确定模型是否好，应该进一步探讨召回率（recall），如果召回率低，说明模型不好，需要重新考虑。

下列关于支持向量机模型叙述错误的是？ B

A.对偶问题的解中非零的 alpha 对应的样本是支持向量。

B.将不是支持向量的样本去掉后，使用相同参数重新求得的超平面可能会不同。

C.当惩罚系数 C 趋于无穷大时，软间隔最大化问题会退化为硬间隔最大化问题。

D.惩罚系数 C 越小，间隔越大，模型的泛化性能越差。

支持向量机的损失函数是？ D

A.0-1 损失函数

B.交叉熵损失函数

C.KL-散度

D.合页损失函数

线性不可分问题不能使用支持向量机模型求解。错

sklearn 中用支持向量机分类的类名是 SVC，该类默认使用的核是？ A

A. 径向基核函数

B.多项式核函数

C.线性核函数

D.Sigmoid 核函数

下列关于多类分类问题，叙述错误的是 C

A.多类分类问题可以转化为二分类问题

B.one-versus-rest 方法可以将多类分类问题转化为二分类问题，但是存在训练样本不平衡

的问题。

C.one-versus-one 方法可以将多类分类问题转化为二分类问题，与 one-versus-rest 方法的计算量相当

D.one-versus-one 方法通常使用投票原则预测分类结果。

下列算法属于生成式模型的是？ A

==A.朴素贝叶斯 ==

B.支持向量机

C.感知器算法

D.决策树

下列关于朴素贝叶斯叙述错误的是？ B

A.朴素贝叶斯模型的核心假设是“在类别已知的情况下，特征条件独立”。

B.朴素贝叶斯模型无法解决连续特征的分类问题

C.朴素贝叶斯常用于文本分类。

D.拉普拉斯平滑可以有效解决零概率问题。

sklearn 中用于分类任务的 K-近邻算法的类是 KNeighborClassifier，下述那个参数是 A

算法中的 K？

A.n_neighbors

B.metric

C.p

D.weights

K-近邻算法中的超参数 K 太大和太小对模型都有影响，不同的问题应该选择合适的 K。

对

KD-树中的 K 和 K-近邻中的 K 都是表示满足特定条件的样本个数。错

KD-树和 Ball-树都是为了提升 K-近邻算法查找 K 个近邻样本的效率而设计的数据结

构。与暴力搜索相比，它们在特征维度较小时有明显优势。对

下列选项中关于 K-近邻算法叙述正确的有 A D

A.K-近邻算法没有明显的训练过程，计算量主要体现在测试阶段。

B.用 K-近邻算法分类，预测速度与训练样本多少无关，只与测试样本的数量有关系。

C.K-近邻算法的运算速度与特征的维度无关。

D.在使用 sklearn 中的 K-近邻算法时，如果选择了 KD-树或 Ball-树等数据结构，fit 阶段

主要用来构建相应的数据结构。

关于决策树，下列说法正确的有 A C

A.构建决策树的关键是确定划分属性。

B.决策树越深模型的分类效果越好。

C.如果使用信息增益确定最优划分属性，应该选择信息增益大的属性。

D.如果使用基尼指数确定最优划分属性，应该选择基尼指数大的属性。

用决策树分类时，如果训练集规模很大，那么下面哪种方式比较合理？C

A.降低特征的维度

B.增加学习率

C.减少数的深度

D.挑选少量样本来训练

决策树剪枝的主要目的是？ A D

A.降低过拟合风险

B.降低欠拟合风险

C.提高模型在训练集的准确率

D.提高模型的泛化能力

经典决策树有 ID3，C4.5，CART 等，下列选项中关于这些算法叙述正确的有 ABCD

A.ID3 没有考虑连续特征。

B.ID3 使用信息增益确定划分属性

C.C4.5 使用增益率确定划分属性

D.CART 生成的树是二叉树，使用了基尼指数确定划分属性

E.C4.5 和 CART 都可以处理连续属性，都考虑了剪枝，都考虑了缺失值的处理。

F.构建相同深度的决策树，CART 比 C4.5 的运算量大。

下列选项中，哪些算法使用串行策略，通过提升的方式，由若干弱分类器构建出强分

类器？ AB

A.AdaBoost

B.梯度提升树

C.决策树

D.Bagging

下列选项中，关于 AdaBoost 算法描述正确的有？ ABC

A.AdBoost 算法通过调整样本的分布，使得当前的弱分类器会优先将分布值大的样本分对

B.AdaBoost 算法是向前分步算法的特例

C.在 sklearn 中，用于分类的 AdaBoost 算法对应的类是 AdaBoostClassifier，其中参数 n_estimators 是弱分类器个数

D.AdaBoost 算法很好地体现了好而不同的策略。

下列选项中，关于 Bagging，叙述正确的有？ ABC

A.在测试阶段，Bagging 在学习到的基学习器中通过投票规则确定最终分类结果。

B.Bagging 通过 Bootstrap 重采样的方式实现样本扰动，进而使各基学习器具有差异性。

C.在 sklearn 中，用于分类的 Bagging 算法对应的类是 BaggingClassifier，其中参数 n_estimators 是基学习器的个数

D.Bootstrap 重采样保证了所有训练样本都将被用来训练某个基学习器。

bootstrap 数据的含义是： C

A.有放回的从整体 M 中抽样 m 个特征

B.无放回的从整体 M 中抽样 m 个特征

C.有放回的从整体 N 中抽样 n 个样本

D.无放回的从整体 N 中抽样 n 个样本

下列选项中，关于随机森林叙述正确的有？ AB

A.随机森林通过样本扰动和属性扰动使每棵决策树具有差异性

B.大多数情况下，随机森林的性能优于 Bagging

C.随机森林很好地使用了分而治之的策略。

D.构建随机森林时，随机选取属性个数的参数 k 无关紧要，该参数的大小对模型的性能影响

不大。

感知器也是一个神经网络。对

在前馈神经网络的训练阶段，通过正向传播计算损失，通过反向传播更新各参数。对

误差反向传播算法是从输出层到输入层逐层更新参数的。对

以下选项中，最有可能防止梯度消失现象的激活函数是？ C

A.Sigmoid 激活函数

B.tanh 激活函数

C.ReLU 激活函数

在训练深度神经网络时，以下选项中，常用来避免过拟合的方式有？ AB

A.Dropout

B.数据增强(Data Augmentation )

C.增加训练次数

D.减小学习率

卷积神经网络可以自动学习特征。对

池化层（Pooling）的作用主要是降维。对

KL 散度具有非负性和非对称性。对

确定性算法是指在不同的运行中，算法输出总是一样。那么前馈神经网络是一种确定

性算法。错

根节点的划分属性是信贷情况

数据预处理

在使用 sklearn 的数据标准化类的时候，成员函数 fit_transform 和 transform 是一样的，没有区别。错Binarizer 类中的 fit()方法没有实质性作用。对下列关于 Binarizer(copy=)说法正确的是 A

A.copy=True 可以保证在使用该类的过程中，输入数据不会被修改

B.copy=True 没有实质性作用，可以忽略。

C.在使用该类时，输入数据总是不会被修改。在测试集上可以使用 MaxAbsScale 类的 fit_transform()方法。错Normalizer 类当 norm='inf’时，实现的功能与 MaxAbsScale 类一样。对使用 StandardScaler 变换以后，数据的取值范围变为(0,1)。错