失眠网,内容丰富有趣,生活中的好帮手!
失眠网 > 机器学习阶段性总结[机器学习]

机器学习阶段性总结[机器学习]

时间:2023-08-15 15:34:28

相关推荐

机器学习阶段性总结[机器学习]

文章目录

分类阶段性测试数据预处理聚类降维

分类阶段性测试

机器学习三要素是? A B C

A.模型

B.策略

C.算法

D.样本

感知器算法的损失函数是误分类点的总数。 错

sklearn 提供的感知器类是 Perceptron,该类实例化的时候一个重要的参数是 eta0请 问该参数表示什么?学习率

下述指标常用来评价分类模型的有哪些? A B C D

A.准确率(accuracy)

==B.精确率(precision) ==

C.召回率(recall)

D.F1-值(F1-score)

E.均方误差

段落说明

现有 10 个样本,6 个阳性(positive),4 个阴性(negative)。模型分别将 2 个阳性和 1

个阴性样本预测错误,其余样本均预测正确。请根据该数据,完成下述四个题目。

模型的准确率(accuracy)是多少?(保留两位小数)0.70

模型的精确率(precision)是多少?(保留两位小数)0.80

模型的召回率(recall)是多少?(保留两位小数)0.67

F1-值(F1-score)是多少?(保留两位小数)0.73

点击率的预测是一个数据比例不平衡问题(比如训练集中样本呈阴性的比例为 99%,阳

性的比例是 1%),如果我们用这种数据建立模型并使得训练集的准确率高达 99%。下列说

法正确的是 D

A.模型的准确率非常高,我们不需要进一步探索

B.不能确定模型是否好,应该进一步探讨精确率(precision),如果精确率高,说明模型

好。

C.训练样本中阳性和阴性样本的比例不影响模型的性能。

D.不能确定模型是否好,应该进一步探讨召回率(recall),如果召回率低,说明模型不好, 需要重新考虑。

下列关于支持向量机模型叙述错误的是? B

A.对偶问题的解中非零的 alpha 对应的样本是支持向量。

B.将不是支持向量的样本去掉后,使用相同参数重新求得的超平面可能会不同。

C.当惩罚系数 C 趋于无穷大时,软间隔最大化问题会退化为硬间隔最大化问题。

D.惩罚系数 C 越小,间隔越大,模型的泛化性能越差。

支持向量机的损失函数是? D

A.0-1 损失函数

B.交叉熵损失函数

C.KL-散度

D.合页损失函数

线性不可分问题不能使用支持向量机模型求解。 错

sklearn 中用支持向量机分类的类名是 SVC,该类默认使用的核是? A

A. 径向基核函数

B.多项式核函数

C.线性核函数

D.Sigmoid 核函数

下列关于多类分类问题,叙述错误的是 C

A.多类分类问题可以转化为二分类问题

B.one-versus-rest 方法可以将多类分类问题转化为二分类问题,但是存在训练样本不平衡

的问题。

C.one-versus-one 方法可以将多类分类问题转化为二分类问题,与 one-versus-rest 方法 的计算量相当

D.one-versus-one 方法通常使用投票原则预测分类结果。

下列算法属于生成式模型的是? A

==A.朴素贝叶斯 ==

B.支持向量机

C.感知器算法

D.决策树

下列关于朴素贝叶斯叙述错误的是? B

A.朴素贝叶斯模型的核心假设是“在类别已知的情况下,特征条件独立”。

B.朴素贝叶斯模型无法解决连续特征的分类问题

C.朴素贝叶斯常用于文本分类。

D.拉普拉斯平滑可以有效解决零概率问题。

sklearn 中用于分类任务的 K-近邻算法的类是 KNeighborClassifier,下述那个参数是 A

算法中的 K?

A.n_neighbors

B.metric

C.p

D.weights

K-近邻算法中的超参数 K 太大和太小对模型都有影响,不同的问题应该选择合适的 K。

KD-树中的 K 和 K-近邻中的 K 都是表示满足特定条件的样本个数。 错

KD-树和 Ball-树都是为了提升 K-近邻算法查找 K 个近邻样本的效率而设计的数据结

构。与暴力搜索相比,它们在特征维度较小时有明显优势。 对

下列选项中关于 K-近邻算法叙述正确的有 A D

A.K-近邻算法没有明显的训练过程,计算量主要体现在测试阶段。

B.用 K-近邻算法分类,预测速度与训练样本多少无关,只与测试样本的数量有关系。

C.K-近邻算法的运算速度与特征的维度无关。

D.在使用 sklearn 中的 K-近邻算法时,如果选择了 KD-树或 Ball-树等数据结构,fit 阶段

主要用来构建相应的数据结构。

关于决策树,下列说法正确的有 A C

A.构建决策树的关键是确定划分属性。

B.决策树越深模型的分类效果越好。

C.如果使用信息增益确定最优划分属性,应该选择信息增益大的属性。

D.如果使用基尼指数确定最优划分属性,应该选择基尼指数大的属性。

用决策树分类时,如果训练集规模很大,那么下面哪种方式比较合理?C

A.降低特征的维度

B.增加学习率

C.减少数的深度

D.挑选少量样本来训练

决策树剪枝的主要目的是? A D

A.降低过拟合风险

B.降低欠拟合风险

C.提高模型在训练集的准确率

D.提高模型的泛化能力

经典决策树有 ID3,C4.5,CART 等,下列选项中关于这些算法叙述正确的有 ABCD

A.ID3 没有考虑连续特征。

B.ID3 使用信息增益确定划分属性

C.C4.5 使用增益率确定划分属性

D.CART 生成的树是二叉树,使用了基尼指数确定划分属性

E.C4.5 和 CART 都可以处理连续属性,都考虑了剪枝,都考虑了缺失值的处理。

F.构建相同深度的决策树,CART 比 C4.5 的运算量大。

下列选项中,哪些算法使用串行策略,通过提升的方式,由若干弱分类器构建出强分

类器? AB

A.AdaBoost

B.梯度提升树

C.决策树

D.Bagging

下列选项中,关于 AdaBoost 算法描述正确的有? ABC

A.AdBoost 算法通过调整样本的分布,使得当前的弱分类器会优先将分布值大的样本分对

B.AdaBoost 算法是向前分步算法的特例

C.在 sklearn 中,用于分类的 AdaBoost 算法对应的类是 AdaBoostClassifier,其中参数 n_estimators 是弱分类器个数

D.AdaBoost 算法很好地体现了好而不同的策略。

下列选项中,关于 Bagging,叙述正确的有? ABC

A.在测试阶段,Bagging 在学习到的基学习器中通过投票规则确定最终分类结果。

B.Bagging 通过 Bootstrap 重采样的方式实现样本扰动,进而使各基学习器具有差异性。

C.在 sklearn 中,用于分类的 Bagging 算法对应的类是 BaggingClassifier,其中参数 n_estimators 是基学习器的个数

D.Bootstrap 重采样保证了所有训练样本都将被用来训练某个基学习器。

bootstrap 数据的含义是: C

A.有放回的从整体 M 中抽样 m 个特征

B.无放回的从整体 M 中抽样 m 个特征

C.有放回的从整体 N 中抽样 n 个样本

D.无放回的从整体 N 中抽样 n 个样本

下列选项中,关于随机森林叙述正确的有? AB

A.随机森林通过样本扰动和属性扰动使每棵决策树具有差异性

B.大多数情况下,随机森林的性能优于 Bagging

C.随机森林很好地使用了分而治之的策略。

D.构建随机森林时,随机选取属性个数的参数 k 无关紧要,该参数的大小对模型的性能影响

不大。

感知器也是一个神经网络。 对

在前馈神经网络的训练阶段,通过正向传播计算损失,通过反向传播更新各参数。 对

误差反向传播算法是从输出层到输入层逐层更新参数的。 对

以下选项中,最有可能防止梯度消失现象的激活函数是? C

A.Sigmoid 激活函数

B.tanh 激活函数

C.ReLU 激活函数

在训练深度神经网络时,以下选项中,常用来避免过拟合的方式有? AB

A.Dropout

B.数据增强(Data Augmentation )

C.增加训练次数

D.减小学习率

卷积神经网络可以自动学习特征。 对

池化层(Pooling)的作用主要是降维。 对

KL 散度具有非负性和非对称性。 对

确定性算法是指在不同的运行中,算法输出总是一样。那么前馈神经网络是一种确定

性算法。 错

根节点的划分属性是信贷情况

数据预处理

在使用 sklearn 的数据标准化类的时候,成员函数 fit_transform 和 transform 是一样 的,没有区别。 错Binarizer 类中的 fit()方法没有实质性作用。 对下列关于 Binarizer(copy=)说法正确的是 A

A.copy=True 可以保证在使用该类的过程中,输入数据不会被修改

B.copy=True 没有实质性作用,可以忽略。

C.在使用该类时,输入数据总是不会被 修改。在测试集上可以使用 MaxAbsScale 类的 fit_transform()方法。 错Normalizer 类当 norm='inf’时,实现的功能与 MaxAbsScale 类一样。 对使用 StandardScaler 变换以后,数据的取值范围变为(0,1)。 错

聚类

下列选项中属于无监督学习的是? C

A.分类任务

B.回归任务

C.聚类聚类是寻找平方误差最小的簇划分。 对k-均值聚类中的 k 是指特征的维度。 错k-均值聚类的结果与初始聚类中心的选取无关。 错下列选项中关于 k-means++说法正确的是 B

A.k-means++跟 k-means 一样,都是聚类算法。

B.k-means++是一种挑选初始聚类中心的算法

C.k-means++是 k-means 的一种改进,可以解决 k-means 在大数据情况下速度慢的问题。实际使用 k-means 算法时,往往需要运行多次,然后根据每次的平方误差选取最优的一 次。在使用 sklearn 时,KMeans 类的初始化参数中设置该次数的是? A

A.n_init

B.init

C.n_clusters

D.max_iter在使用 sklearn 时,KMeans 类哪个成员变量可以返回最终的聚类中心? B

A.inertia_

B.cluster_centers_

C.labels_

D.n_iter_mini batch k-means 是 k-means 的一种改进,可以解决 k-means 在大数据情况下速度慢 的问题。 对mini batch k-mean 的核心思想是:每次从所有样本中随机选取一批样本来更新聚类中

心。请问 sklearn.cluster.MiniBatchKMeans 类中哪个参数是设置每批样本的数量? A

A.batch_size

B.n_clusters

C.n_init

D.init下列关于 k-means 算法的运行时间叙述正确的是 A

A.运行时间与样本数量有关系,样本量越大,时间越长

B.运行时间受特征维度影响较大,样本数量几乎没有影响

C.运行时间受样本数量影响较大,特征维度几乎没有影响

降维

使用 PCA 降维是有损的。 对下述降维方法是无监督的有? A B

A.PCA

B.KernelPCA

C.LDAPCA 的核心思想是投影到方差更大的方向。 对KernelPCA 是在更高维空间进行降维,所以需要设计低维到高位的投影函数。 错LDA 的核心思想是投影后保证类间距离最大化,类内距离最小化。 对PCA 选择分类性能最好的投影方向。 错LDA 降维后的维度需要满足? D

A.小于样本个数即可

B.小于类别数即可

C.可以等于样本个数,也可以等于类别数

D.不超过样本个数,同时小于类别数

如有错误,欢迎指出

如果觉得《机器学习阶段性总结[机器学习]》对你有帮助,请点赞、收藏,并留下你的观点哦!

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。