失眠网,内容丰富有趣,生活中的好帮手!
失眠网 > 机器学习笔记(八)——决策树模型的特征选择

机器学习笔记(八)——决策树模型的特征选择

时间:2020-02-05 17:41:42

相关推荐

机器学习笔记(八)——决策树模型的特征选择

一、引言

决策树构建过程中的特征选择是非常重要的一步。特征选择是决定用哪个特征来划分特征空间,特征选择是要选出对训练数据集具有分类能力的特征,这样可以提高决策树的学习效率。如果利用某一个特征进行分类与随机分类的结果没有很大的差别,则称这个特征是没有分类能力的。这样的特征可以丢弃。常用的特征选择的准则是信息增益和信息增益比。

二、信息增益

要了解信息增益,我们要先知道熵与条件熵的定义。

2.1 熵

熵是无序度的度量,在信息论和统计中,熵表示随机变量不确定性的度量。假设X是一个取有限值的离散型随机变量,它的概率分布如下:

P(X=xi)=pi,i=1,2,…,n

则随机变量X的熵定义为:

H(X)=−∑i=1npilogpi

若pi=0,定义0log0=0,从上式中可以看到,熵只依赖于X的分布,而与X的取值没有关系。熵越大,随机变量的不确定性就越大。故可以将X的熵记作H(p):

H(p)=−∑i=1npilogpi

2.2 条件熵

设有随机变量(X,Y),其联合概率分布为:

P(X=xi,Y=yj)=pij,i=1,2,…,n;j=i=1,2,…,m

条件熵H(Y|X)表示在已知随机变量X的条件下随机变量Y的不确定性。随机变量X给定的条件下随机变量Y的条件熵H(Y|X)定义为X给定条件下Y的条件概率分布的熵对X的数学期望:

H(Y|X)=∑i=1npiH(Y|X=xi),pi=P(X=xi),i=1,2,…,n

当熵和条件熵中的概率由数据估计得来时,所对应的熵和条件熵称为经验熵和经验条件熵。

2.3 信息增益

信息增益表示得知特征X的信息而使得类Y的信息不确定性减少的程度。

信息增益

特征A对训练数据集D的信息增益g(D,A),定义为集合D的经验熵H(D)与特征A给定条件下D的经验条件熵H(D|A)之差:

g(D,A)=H(D)−H(D|A)

信息增益大的特征具有更强的分类能力。

根据信息增益准则进行特征选择的方法是:对训练数据集D,计算其每个特征的信息增益,并比较它们的大小,选择最大的特征。

三、信息增益比

通过信息增益选取特征的时候,存在偏向于选择取值较多的特征的问题。使用信息增益比可以纠正这一问题。

信息增益比

特征A对训练数据集D的信息增益比gR(D,A)定义为其信息增益g(D,A)与训练数据集D关于特征A的值的熵HA(D)之比,即:

gR(D,A)=g(D,A)HA(D)HA(D)=−∑i=1n|Di||D|log2|Di||D|

n 是特征A取值的个数。

如果觉得《机器学习笔记(八)——决策树模型的特征选择》对你有帮助,请点赞、收藏,并留下你的观点哦!

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。