失眠网,内容丰富有趣,生活中的好帮手!
失眠网 > 【鸢尾花数据集最小错误率贝叶斯分类】

【鸢尾花数据集最小错误率贝叶斯分类】

时间:2024-07-13 12:19:26

相关推荐

【鸢尾花数据集最小错误率贝叶斯分类】

一、 问题描述

——鸢尾花数据集最小错误率贝叶斯分类

iris是鸢尾植物数据集,存储了其萼片和花瓣的长宽,共4个特征属性(记萼长为属性1,萼宽为属性2,花瓣长为属性3,花瓣宽为属性4),鸢尾植物分三类。该数据集一共包含4个特征变量,1个类别变量。共有150个样本,鸢尾有三个亚属,分别是山鸢尾 (Iris-setosa,即类别1),变色鸢尾(Iris-versicolor,即类别2)和维吉尼亚鸢尾(Iris-virginica,即类别3)。现在基于最小错误率贝叶斯决策,根据不同的特征属性对测试样本进行分类,使得分类结果的错误率最小。

二、 实现思想

原理:在一般的模式识别问题中,人们的目标往往是尽量减少分类的错误,追求最小的错误率,即求解一种决策规则,使得

这就是基于最小错误率的贝叶斯决策。

由P(e|x)≥0,P(x)≥0对于所有的x均成立,故minP(e)等同于对所有的x最小化P(e|x),即使后验概率P(ωi|x)最大化。根据贝叶斯公式

对于所有类别,分母都是相同的,所以决策的时候实际上只需要比较分子,即

先验概率P(ωi)和类条件概率密度P(x|ωi)是已知的。概率密度P(x|ωi)反映了在ωi类中观察到特征值x的相对可能性。

对于多类别决策,错误率的计算量较大,可以转化为计算平均正确率P(c)来计算错误率:

步骤:

(1)对数据进行处理

在每个类别的样本中分别取40个样本,作为训练样本(共120个),余下样本作为测试样本(共30个),

(2) 求出每类训练样本的均值

(3) 求出每类训练样本的协方差矩阵

(4) 求出每类训练样本的协方差矩阵的逆矩阵

(5)求出每类训练样本的协方差矩阵的行列式值

(6)求出各类别的先验概率和后验概率

三、 结果展示

运行程序得测试样本分类图界面,这里每次取3个不同特征属性进行多次实验作出分类图(图1,图2,图3,图4)

ps:为了让分类图更直观,部分图是经过旋转得来的。

图1(萼长,萼宽,花瓣长,即属性1,2,3)

图2(萼长,萼宽,花瓣宽,即属性1,2,4)

图3(萼长,花瓣长,花瓣宽,即属性1,3,4)

图4(萼宽,花瓣长,花瓣宽,即属性2,3,4)

从4个分类图中可以明显看出数据分类效果比较好。

继续运行程序,MATLAB命令窗口实现的结果如下:(图5,此处只截取部分展示)

图5

对所有结果数据进行整理得:测试样本分类表如图(图6)

图6

对比正确分类后,发现用该分类方法得到得的30组数据的分类都与正确分类吻合。

结论:贝叶斯决策理论要求两个前提,一个是分类类别数目已知;另一个是类条件概率密度和先验概率已知。前者很容易解决,而后者通常就不容易满足了。基于贝叶斯决策的分类器设计方法是在已知类条件概率密度的情况下讨论的,贝叶斯判别函数中的类条件概率密度是利用样本来估计的,估计出来的类条件概率密度函数可能是线性函数,也可能是各种各样的非线性函数。这种设计判别函数的思路,在用样本估计之前,是不知道判别函数是线性函数还是别的什么函数的,而且有时候受样本空间大小、维数等影响,类条件概率密度函数更加难以确定。

四、 代码

clear;

clc;

N=120;w=3;n=4;N1=40;N2=40;N3=40;

%训练样本数;类别数;特征数;各类训练样本数;

A=[5.1 3.5 1.4 0.2

4.9 3 1.4 0.2

4.7 3.2 1.3 0.2

4.6 3.1 1.5 0.2

5 3.6 1.4 0.2

5.4 3.9 1.7 0.4

4.6 3.4 1.4 0.3

5 3.4 1.5 0.2

4.4 2.9 1.4 0.2

4.9 3.1 1.5 0.1

5.4 3.7 1.5 0.2

4.8 3.4 1.6 0.2

4.8 3 1.4 0.1

4.3 3 1.1 0.1

5.8 4 1.2 0.2

5.7 4.4 1.5 0.4

5.4 3.9 1.3 0.4

5.1 3.5 1.4 0.3

5.7 3.8 1.7 0.3

5.1 3.8 1.5 0.3

5.4 3.4 1.7 0.2

5.1 3.7 1.5 0.4

4.6 3.6 1 0.2

5.1 3.3 1.7 0.5

4.8 3.4 1.9 0.2

5 3 1.6 0.2

5 3.4 1.6 0.4

5.2 3.5 1.5 0.2

5.2 3.4 1.4 0.2

4.7 3.2 1.6 0.2

4.8 3.1 1.6 0.2

5.4 3.4 1.5 0.4

5.2 4.1 1.5 0.1

5.5 4.2 1.4 0.2

4.9 3.1 1.5 0.2

5 3.2 1.2 0.2

5.5 3.5 1.3 0.2

4.9 3.6 1.4 0.1

4.4 3 1.3 0.2

5.1 3.4 1.5 0.2];

% 1类训练样本

B=[7 3.2 4.7 1.4

6.4 3.2 4.5 1.5

6.9 3.1 4.9 1.5

5.5 2.3 4 1.3

6.5 2.8 4.6 1.5

5.7 2.8 4.5 1.3

6.3 3.3 4.7 1.6

4.9 2.4 3.3 1

6.6 2.9 4.6 1.3

5.2 2.7 3.9 1.4

5 2 3.5 1

5.9 3 4.2 1.5

6 2.2 4 1

6.1 2.9 4.7 1.4

5.6 2.9 3.6 1.3

6.7 3.1 4.4 1.4

5.6 3 4.5 1.5

5.8 2.7 4.1 1

6.2 2.2 4.5 1.5

5.6 2.5 3.9 1.1

5.9 3.2 4.8 1.8

6.1 2.8 4 1.3

6.3 2.5 4.9 1.5

6.1 2.8 4.7 1.2

6.4 2.9 4.3 1.3

6.6 3 4.4 1.4

6.8 2.8 4.8 1.4

6.7 3 5 1.7

6 2.9 4.5 1.5

5.7 2.6 3.5 1

5.5 2.4 3.8 1.1

5.5 2.4 3.7 1

5.8 2.7 3.9 1.2

6 2.7 5.1 1.6

5.4 3 4.5 1.5

6 3.4 4.5 1.6

6.7 3.1 4.7 1.5

6.3 2.3 4.4 1.3

5.6 3 4.1 1.3

5.5 2.5 4 1.3];

%2类训练样本

C=[6.3 3.3 6 2.5

5.8 2.7 5.1 1.9

7.1 3 5.9 2.1

6.3 2.9 5.6 1.8

6.5 3 5.8 2.2

7.6 3 6.6 2.1

4.9 2.5 4.5 1.7

7.3 2.9 6.3 1.8

6.7 2.5 5.8 1.8

7.2 3.6 6.1 2.5

6.5 3.2 5.1 2

6.4 2.7 5.3 1.9

6.8 3 5.5 2.1

5.7 2.5 5 2

5.8 2.8 5.1 2.4

6.4 3.2 5.3 2.3

6.5 3 5.5 1.8

7.7 3.8 6.7 2.2

7.7 2.6 6.9 2.3

6 2.2 5 1.5

6.9 3.2 5.7 2.3

5.6 2.8 4.9 2

7.7 2.8 6.7 2

6.3 2.7 4.9 1.8

6.7 3.3 5.7 2.1

7.2 3.2 6 1.8

6.2 2.8 4.8 1.8

6.1 3 4.9 1.8

6.4 2.8 5.6 2.1

7.2 3 5.8 1.6

7.4 2.8 6.1 1.9

7.9 3.8 6.4 2

6.4 2.8 5.6 2.2

6.3 2.8 5.1 1.5

6.1 2.6 5.6 1.4

7.7 3 6.1 2.3

6.3 3.4 5.6 2.4

6.4 3.1 5.5 1.8

6 3 4.8 1.8

6.9 3.1 5.4 2.1];

%3类训练样本

X1=mean(A)’

X2=mean(B)’

X3=mean©’

% 求训练样本均值

S1=cov(A)

S2=cov(B)

S3=cov©

% 求训练样本的协方差矩阵

S1_=inv(S1)

S2_=inv(S2)

S3_=inv(S3)

%求训练样本协方差矩阵的逆矩阵

S11=det(S1)

S22=det(S2)

S33=det(S3)

% 求训练样本协方差矩阵行列式

Pw1=N1/N

Pw2=N2/N

Pw3=N3/N

%求先验概率

sample=[ 5 3.5 1.3 0.3

4.5 2.3 1.3 0.3

4.4 3.2 1.3 0.2

5 3.5 1.6 0.6

5.1 3.8 1.9 0.4

4.8 3 1.4 0.3

5.1 3.8 1.6 0.2

4.6 3.2 1.4 0.2

5.3 3.7 1.5 0.2

5 3.3 1.4 0.2

5.5 2.6 4.4 1.2

6.1 3 4.6 1.4

5.8 2.6 4 1.2

5 2.3 3.3 1

5.6 2.7 4.2 1.3

5.7 3 4.2 1.2

5.7 2.9 4.2 1.3

6.2 2.9 4.3 1.3

5.1 2.5 3 1.1

5.7 2.8 4.1 1.3

6.7 3.1 5.6 2.4

6.9 3.1 5.1 2.3

5.8 2.7 5.1 1.9

6.8 3.2 5.9 2.3

6.7 3.3 5.7 2.5

6.7 3 5.2 2.3

6.3 2.5 5 1.9

6.5 3 5.2 2

6.2 3.4 5.4 2.3

5.9 3 5.1 1.8];

%测试样本

for k=1:30

P1=-1/2*(sample(k,:)‘-X1)‘S1_(sample(k,:)’-X1)+log(Pw1)-1/2log(S11);

P2=-1/2(sample(k,:)’-X2)‘S2_(sample(k,:)’-X2)+log(Pw2)-1/2log(S22);

P3=-1/2(sample(k,:)'-X3)‘S3_(sample(k,:)’-X3)+log(Pw3)-1/2*log(S33);

%求后验概率

P=[P1 P2 P3]

Pmax=max§

if P1max§

w=1

plot3(sample(k,2),sample(k,3),sample(k,4),‘ro’);grid on;hold on;

elseif P2max§

w=2

plot3(sample(k,2),sample(k,3),sample(k,4),‘b>’);grid on;hold on;

elseif P3==max§

w=3

plot3(sample(k,2),sample(k,3),sample(k,4),‘g+’);grid on;hold on;

else

return

end

end

如果觉得《【鸢尾花数据集最小错误率贝叶斯分类】》对你有帮助,请点赞、收藏,并留下你的观点哦!

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。