失眠网 > 《机器学习实战笔记--第一部分分类算法：决策树 3》

《机器学习实战笔记--第一部分分类算法：决策树 3》

时间：2020-02-16 22:47:35

构造分类器：

我们在构造了决策树之后，可以用于实际的分类了。在执行分类的时候需要决策树以及用于构造树的标签向量。程序比较测试数据与决策树上的数值，递归执行该过程直到进入叶子节点；最后将测试数据定义为叶子节点所属的类型。

def classify(inputTree, featLabels, testVec):#featLabels特征标签列表firstStr = list(inputTree.keys())[0]#print('first:',firstStr)secondDict = inputTree[firstStr]#寻找用于划分数据集的特征存储在哪个位置featIndex = featLabels.index(firstStr)#print('index:',featIndex)for key in secondDict.keys():#print(key)#print(testVec[featIndex])#print('******')if testVec[featIndex] == key:if type(secondDict[key]).__name__ == 'dict':classLabel = classify(secondDict[key], featLabels, testVec)#print('classLabel:',classLabel)else:classLabel = secondDict[key]#print('classLabel:',classLabel)return classLabel

运行的结果如上所示。

现在我们已经创建了决策树分类器，但是每次使用分类的时候必须重新构造决策树，下面我们来学习如何在硬盘上存储决策树分类器。

使用算法：决策树的储存

构造决策树是很麻烦的一件事情，所以为了节省计算时间，最好能够在每次执行分类器时调用已经构造好的决策树，为了解决这个问题，需要使用python模块pickle序列化对象。序列化的对象可以在磁盘上保存，并在需要时读取出来。任何对象都可以执行序列化操作，字典对象也不例外。

def storeTree(inputTree, filename):import pickle#存储方式默认是二进制方式。fw = open(filename, 'wb+')pickle.dump(inputTree, fw)fw.closedef grabTree(filename):import picklefr = open(filename, 'rb')return pickle.load(fr)

我们可以看到已经将分类器储存在硬盘上了，而不用每次都重新学习一遍了。

示例：使用决策树预测隐形眼镜类型

（1）、收集数据：提供的文本文件

（2）、准备数据：解析tab键分隔的数据行

（3）、分析数据：快速检查数据，确保正确的解析数据内容，使用createPlot()函数绘制最终的图形。

（4）、训练算法：使用之前的createTree()函数

（5）、测试算法：编写测试函数决策树可以正确分类给定的数据实例

（6）、使用算法：存储树的数据结构，以便下次使用时无需重新构造树

fr = open('lenses.txt')#strip()移除字符串两端指定字符，默认为空格lenses = [inst.strip().split('\t') for inst in fr.readlines()]print(lenses)print('*****')lensesLabels = ['age','prescript','astigmatic','tearRate']lensesTree = createTree(lenses, lensesLabels)print(lensesTree)

最终的决策图为：

医生只需要四次询问就可以确定哪种类型的眼镜，然而这些匹配的选项太多了，我们将这种问题成为过度匹配。为了减少过度匹配的问题，我们可以裁剪决策树，去掉一些不需要的叶子节点。如果叶子只增加少许信息那么就删除该节点，将它并入到其他的叶子节点中。我们会在第九章进一步讨论。

如果觉得《《机器学习实战笔记--第一部分分类算法：决策树 3》》对你有帮助，请点赞、收藏，并留下你的观点哦！

本内容不代表本网观点和政治立场，如有侵犯你的权益请联系我们处理。

网友评论

网友评论仅供其表达个人看法，并不表明网站立场。