失眠网 > 【机器学习】分类决策树与回归决策树案例

【机器学习】分类决策树与回归决策树案例

时间：2023-05-03 18:15:12

相关推荐

【机器学习】分类决策树与回归决策树案例

一、回顾

什么是决策树，信息熵

构建决策树的过程

ID3、C4.5和CRAT算法

上面三篇，主要介绍了相关的理论知识，其中构建决策树的过程可以很好地帮助我们理解决策树的分裂属性的选择。

本篇所有源代码：Github

二、决策树的Python实现

假设我们有数据集：

dataSet = [[1, 1, 'yes'],[1, 1, 'yes'],[1, 0, 'no'],[0, 1, 'no'],[0, 1, 'no']]labels = ['第一个特征', '第二个特征']

我们用第二篇中介绍的信息增益的方法，来构造决策树，然后再用python代码实现：

1. 信息熵

P ( 0 ) = 3 / 5 = 0.6 P ( 1 ) = 2 / 5 = 0.4 P(0) = 3/5 = 0.6 \quad\quad P(1) = 2/5 = 0.4 P(0)=3/5=0.6P(1)=2/5=0.4

0 表示’no’，1 表示’yes’，P(0) 表示标签为 ‘no’ 的概率

i n f o ( D ) = − 0.6 l o g 0.6 − 0.4 l o g 0.4 ≈ 0.971 info(D) = -0.6log0.6-0.4log0.4 \approx 0.971 info(D)=−0.6log0.6−0.4log0.4≈0.971

2. 信息增益

i n f o ( D 第一个特征为 1 ) = − 2 3 l o g 2 3 − 1 3 l o g 1 3 ≈ 0.918 info(D_{第一个特征为1}) = -\frac{2}{3}log\frac{2}{3}-\frac{1}{3}log\frac{1}{3} \approx 0.918 info(D第一个特征为1)=−32log32−31log31≈0.918

i n f o ( D 第一个特征为 0 ) = − 1 l o g 1 − 0 l o g 0 = 0 info(D_{第一个特征为0}) = -1log1- 0log0 = 0 info(D第一个特征为0)=−1log1−0log0=0

G a i n ( 第一个特征 ) = i n f o ( D ) − 2 5 i n f o ( D 第一个特征为 0 ) − 3 5 i n f o ( D 第一个特征为 1 ) ≈ 0.42 Gain(第一个特征) = info(D) - \frac{2}{5}info(D_{第一个特征为0}) - \frac{3}{5}info(D_{第一个特征为1}) \approx 0.42 Gain(第一个特征)=info(D)−52info(D第一个特征为0)−53info(D第一个特征为1)≈0.42

i n f o ( D 第二个特征为 1 ) = − 2 4 l o g 2 4 − 2 4 l o g 2 4 = 1 info(D_{第二个特征为1}) = -\frac{2}{4}log\frac{2}{4}-\frac{2}{4}log\frac{2}{4} = 1 info(D第二个特征为1)=−42log42−42log42=1

i n f o ( D 第二个特征为 0 ) = − 1 l o g 1 − 0 l o g 0 = 0 info(D_{第二个特征为0}) = -1log1- 0log0 = 0 info(D第二个特征为0)=−1log1−0log0=0

G a i n ( 第二个特征 ) = i n f o ( D ) − 1 5 i n f o ( D 第二个特征为 0 ) − 4 5 i n f o ( D 第二个特征为 1 ) ≈ 0.12 Gain(第二个特征) = info(D) - \frac{1}{5}info(D_{第二个特征为0}) - \frac{4}{5}info(D_{第二个特征为1}) \approx 0.12 Gain(第二个特征)=info(D)−51info(D第二个特征为0)−54info(D第二个特征为1)≈0.12

由于第一个特征的信息增益大于第二个特征的信息增益，选择第一个特征作为根节点

此时就剩一个特征了，可以直接画，使用多数表决法决定叶子节点所属类别；如果还有其他特征，可以重复以上操作，直到达到决策树停止条件。
使用多数表决法构成分类决策树如果决策规则不是使用多数表决法，而是使用均方误差（MSE）或平均绝对误差（MAE），就可以构成回归决策树

3. 画出决策树

上图便是最终的决策树结构

4. 代码实现

代码可见：01_决策树的实现.py

运行结果为：myTree: {'第一个特征': {0: 'no', 1: {'第二个特征': {0: 'no', 1: 'yes'}}}}

可见，运行结果和上图是一样，首先按第一个特征作为分裂属性，然后再按第二个属性

三、分类决策树案例

1. 鸢尾花数据分类

本案例主要看看使用决策树模型的一般步骤。

实现步骤：

读取数据划分数据（特征数据与标签数据分开）数据分割（训练集和测试集）数据预处理（数据归一化、特征选择、降维）模型构建及训练模型预测模型评估画图

可得到如下结果：Score： 0.9666666666666667Classes: [0 1 2]获取各个特征的权重:[0.91754496 0.08245504]

由结果可见，正确率达到了96.7%
本案例通过特征选择选择了3个特征，当三维不好画图；
然后通过降维处理，降为二维，得到以上结果

代码可见：02_鸢尾花数据分类.py

2. 鸢尾花数据分类（参数优化）

本案例主要是选择出最优的模型参数（超参数），以使模型达到最优。

实现步骤：

读取数据划分数据（特征数据与标签数据分开）数据分割（训练集和测试集）：至此和三个案例一样参数优化（通过管道设置模型及参数）模型构建及训练模型评估应用以上得到的最优参数查看效果

最优参数列表: {'decision__criterion': 'gini', 'decision__max_depth': 4, 'pca__n_components': 0.99, 'skb__k': 3}score值： 0.95最优模型:Pipeline(memory=None,steps=[('mms', MinMaxScaler(copy=True, feature_range=(0, 1))),('skb', SelectKBest(k=3, score_func=<function chi2 at 0x0000010FDCA9A0D0>)), ('pca', PCA(copy=True, iterated_power='auto', n_components=0.99, random_state=None, svd_solver='auto', tol=0.0, whiten=False)),('decision', DecisionTreeClass... min_weight_fraction_leaf=0.0, presort=False, random_state=0, splitter='best'))])

代码可见：03_鸢尾花数据分类_参数优化.py

3.鸢尾花数据分类（决策树深度不同）

本案例主要为了测试决策树不同深度给模型带来的效果。

实现步骤：

读取数据划分数据（特征数据与标签数据分开）数据分割（训练集和测试集）：至此和三个案例一样模型训练（基于不同深度依次训练，此处省略了数据预处理），并记录每个深度下的正确率画出正确率变化图

运行结果可能不一样，大体可以看出：
当决策树深度为1时，错误率比较大，此时模型欠拟合；当决策树深度为2时，错误率达到最低；之后，错误率基本没变化，说明此时的模型以及开始过拟合了；

代码可见：04_鸢尾花数据分类_决策树深度不同.py

4.鸢尾花数据分类（特征属性比较）

本案例主要是使用2个特征来训练模型，并且这两个特征为任意组合，最后查看每个模型的效果。

实现步骤：

读取数据划分数据（特征数据与标签数据分开）数据分割（训练集和测试集）：至此和三个案例一样特征比较（每组特征模型训练，画图）

由图可看出，使用花瓣长度和花瓣宽度特征，模型正确率达到了99.33%，可以推断这两个特征对于分类决策的效果最好。
也就是这三类花在花瓣长度和花瓣宽度有不同的大小

代码可见：05_鸢尾花数据分类_特征比较.py

四、回归决策树案例

1. 波士顿房屋租赁价格预测

本案例使用回归决策树进行房屋租赁价格预测，并与之前在回归算法中使用线性回归、Lasso回归、Ridge回归进行比较。

实现步骤：

读取数据划分数据（特征数据与标签数据分开）数据分割（训练集和测试集）：这些步骤和前面的案例类似数据处理（数据归一化）模型构建，并训练，预测，评估（决策树、线性回归、Lasso回归、Ridge回归）画图

由图可知，回归决策树的效果其他方法的效果都好

代码可见：06_波士顿房屋租赁价格预测.py

2. 波士顿房屋租赁价格预测（参数优化）

本案例是主要是选择出最佳模型的参数。

实现步骤：

读取数据划分数据（特征数据与标签数据分开）数据分割（训练集和测试集）参数优化（通过管道设置模型及参数）模型构建及训练应用以上得到的最优参数查看效果

运行结果为：0 score值: 0.4001529052721232 最优参数列表: {'decision__max_depth': 7, 'pca__n_components': 0.75}1 score值: 0.7569661898236847 最优参数列表: {'decision__max_depth': 4}2 score值: 0.7565404744169743 最优参数列表: {'decision__max_depth': 4}正确率: 0.8435980902870441