推荐专题：

失眠网 > 机器学习笔记（八）——决策树模型的特征选择

机器学习笔记（八）——决策树模型的特征选择

时间：2020-02-05 17:41:42

相关推荐

机器学习笔记（八）——决策树模型的特征选择

一、引言

决策树构建过程中的特征选择是非常重要的一步。特征选择是决定用哪个特征来划分特征空间，特征选择是要选出对训练数据集具有分类能力的特征，这样可以提高决策树的学习效率。如果利用某一个特征进行分类与随机分类的结果没有很大的差别，则称这个特征是没有分类能力的。这样的特征可以丢弃。常用的特征选择的准则是信息增益和信息增益比。

二、信息增益

要了解信息增益，我们要先知道熵与条件熵的定义。

2.1 熵

熵是无序度的度量，在信息论和统计中，熵表示随机变量不确定性的度量。假设X是一个取有限值的离散型随机变量，它的概率分布如下：

P(X=xi)=pi,i=1,2,…,n

则随机变量X的熵定义为：

H(X)=−∑i=1npilogpi

若pi=0，定义0log0=0,从上式中可以看到，熵只依赖于X的分布，而与X的取值没有关系。熵越大，随机变量的不确定性就越大。故可以将X的熵记作H(p):

H(p)=−∑i=1npilogpi

2.2 条件熵

设有随机变量(X,Y),其联合概率分布为：

P(X=xi,Y=yj)=pij,i=1,2,…,n;j=i=1,2,…,m

条件熵H(Y|X)表示在已知随机变量X的条件下随机变量Y的不确定性。随机变量X给定的条件下随机变量Y的条件熵H(Y|X)定义为X给定条件下Y的条件概率分布的熵对X的数学期望：

H(Y|X)=∑i=1npiH(Y|X=xi),pi=P(X=xi),i=1,2,…,n

当熵和条件熵中的概率由数据估计得来时，所对应的熵和条件熵称为经验熵和经验条件熵。

2.3 信息增益

信息增益表示得知特征X的信息而使得类Y的信息不确定性减少的程度。

信息增益

特征A对训练数据集D的信息增益g(D,A)，定义为集合D的经验熵H(D)与特征A给定条件下D的经验条件熵H(D|A)之差：

g(D,A)=H(D)−H(D|A)

信息增益大的特征具有更强的分类能力。

根据信息增益准则进行特征选择的方法是：对训练数据集D，计算其每个特征的信息增益，并比较它们的大小，选择最大的特征。

三、信息增益比

通过信息增益选取特征的时候，存在偏向于选择取值较多的特征的问题。使用信息增益比可以纠正这一问题。

信息增益比

特征A对训练数据集D的信息增益比gR(D,A)定义为其信息增益g(D,A)与训练数据集D关于特征A的值的熵HA(D)之比，即:

gR(D,A)=g(D,A)HA(D)HA(D)=−∑i=1n|Di||D|log2|Di||D|

n 是特征A取值的个数。

如果觉得《机器学习笔记（八）——决策树模型的特征选择》对你有帮助，请点赞、收藏，并留下你的观点哦！

本内容不代表本网观点和政治立场，如有侵犯你的权益请联系我们处理。

网友评论

网友评论仅供其表达个人看法，并不表明网站立场。

相关阅读

【机器学习】——逻辑模型：树模型（决策树）

2021-04-26

机器学习—决策树模型

2018-06-26

机器学习：算法模型：决策树

2021-09-07

【机器学习】决策树模型详解

2019-02-14

最近发布

小茴香: 多功能的治失眠利器

2024-07-20

如何预防失眠和抑郁？有效的方法有哪些？

2024-07-20

揭秘失眠的祸首：白开水里加点它或能让你沾床就睡

2024-07-20

白领光环下的失眠困扰

2024-07-20

中医治疗失眠疗效分析

2024-07-20

儿童失眠：应该注意的原则性问题

2024-07-20

克服失眠：分享治疗经验

2024-07-20

中药如何治疗失眠？调理需多久？

2024-07-20

失眠多梦的解决之道：中成药效果研究报道

2024-07-20

如何帮助两岁的宝宝克服失眠问题？快速调理方法揭秘

2024-07-20

推荐专题

晋中失眠调理脑活素失眠杏鲍菇治失眠不知今夜怎么失眠治失眠额头中央有一个穴位长失眠调治方法室友失眠死亡失眠宝宝船长治疗失眠针灸为什么失眠感觉双腿不适呢失眠半夜定期醒姜文失眠为什么失眠严重失眠一个月怎么补救呢失眠飞行严