失眠网 > WPBC乳腺癌数据集建模（Ⅱ）—预后诊断模型建立

WPBC乳腺癌数据集建模（Ⅱ）—预后诊断模型建立

时间：2021-10-13 00:45:30

WPBC乳腺癌数据集建模（Ⅱ）—建立预后诊断模型

前言模型假设建模过程建模数据思路构建（思路简化可用于摘要）算法模型简述SVM支持向量机PCA主成分分析KNN模型反思与推广参考

前言

&#8195；经过前面的补充数据寻找、和原有数据的描述性统计与降维寻找对乳腺癌较大的10个指标的找寻工作后，笔者开始尝试建立关于乳腺癌的预后诊断模型。本文主要内容为模型的算法阐述与建模思路。其中不足，往读者多多指正。

模型假设

1、获取数据真实有效；

2、32项指标都对患者是否复发的一定影响因素；

……

建模过程

建模数据

1、原有数据经过一定的缺失值处理德等操作后得到数据集data_2其包括乳针吸细胞的的32特征（30项细胞特征、一项肿瘤特征、一项淋巴状态特征）194项数据，其是关于预后患者是否复发的数据；

2、补充数据集：在WPBC官网上找到的诊断数据，其共有30项特征（30项细胞特征）569例数据，为数据集data，其主要是判断患者是否肿瘤为恶性的数据。

data数据一览

data.head()

5 rows × 32 columns

- data_2数据一览

data2.head()

5 rows × 35 columns

思路构建（思路简化可用于摘要）

在模型建立过程中尝试了SVM算法、kNN算法、通过PCA降维的SVM模型构建算法。

笔者首先将原有的数据集data_2分成了两份：70%的数据作为训练集train用于模型训练；30%的数据作为测试集test用于模型的测试，计算模型的预测准确率。利用SVM算法建立得到的训练模型的预测准确率为79.66%，随后对模型进行如下改进：

1、在WPBC官网找到相关补充数据data（用于诊断检查者的肿瘤是否为阳性的数据集）对模型数据进行补充，希望通过增加训练数据的量来提高训练的准确率。笔者将data分为两份（做法与上同），得到模型预测准确率为高达98%，于是尝试将原数据进行列处理后将其放入模型中j进行模型测试，发现预后预测的准确率只有55.93%反思得到：模型的data与data_2的并不完全相同，data数据集的指标相对data_2缺少两项，且其检测的针对人群亦不相同，data是检测者（想要知道自己是否患癌症）的人群数据，data_2针对的预后人群（检测其是否复发），因此，data的SVM诊断模型对data_2的诊断有一定的帮助，但不够理想。

2、更换算法，尝试利用KNN算法对数据data_2进行预测模型的建立。数据分法同上文，得到了KNN预后诊断模型，得到的预测准确率为76.27%，相对SVM的检测效果，仍不够理想。

3、利用PCA主成分分析算法对数据data_2进行降维处理后，通过SPSS提取出7个主成分，做训练的输入变量数据train_x,将其7个主成分数据列与诊断结果列（outcome）构成新的数据集data_PCA,数据分成两份（做法同上）得到的基于PCA降维后的SVM算法预后诊断模型的准确率为84.75%得到了一个相对较为理想的结果。作为最后的预后诊断模型。

算法模型简述

SVM支持向量机

支持向量机的思想是希望构建基于线性分类的思想的分类器算法。目的是希望构建一个超平面使得数据得到分类。

定义分离超平面：wTx+b=0w^Tx+b=0wTx+b=0

定义几何间隔：r=label(wTx+b)∣∣w∣∣2r=\frac{label(w^Tx+b)}{||w||_2}r=∣∣w∣∣2label(wTx+b)

支持向量机目的就是分类的超平面到最近的点的几何最大，列出数学模型，经过推导，可把它转化成一个接凸二次规划问题：min⁡12∣∣w∣∣2\min\ \frac{1}{2}||w||^2min21∣∣w∣∣2 s.t.yi(wTxi+b)≥1,i=1,2,..,ms.t.\ y_i(w^Tx_i+b)\geq 1,\ i=1,2,..,ms.t.yi(wTxi+b)≥1,i=1,2,..,m

利用用拉格朗日乘子法和KKT条件求解最优值（推导得到其对偶问题）：L(w,b,α)=12∣∣w∣∣2+∑i=1mαi(−yi(wTxi+b)+1)L(w, b, \alpha) = \frac{1}{2}||w||^2+\sum^m_{i=1}\alpha_i(-y_i(w^Tx_i+b)+1)L(w,b,α)=21∣∣w∣∣2+i=1∑mαi(−yi(wTxi+b)+1)

具体的算法实现步骤：

线性分类的支持向量机算法（基于最大间隔）

非线性的SVM分类

思想，利用核函数映射将非线性的数据映射成可进行线性分类的数据。

算法实现步骤：