失眠网,内容丰富有趣,生活中的好帮手!
失眠网 > 西瓜书+实战+吴恩达机器学习(十六)半监督学习(半监督SVM 半监督k-means 协同训练算法)

西瓜书+实战+吴恩达机器学习(十六)半监督学习(半监督SVM 半监督k-means 协同训练算法)

时间:2022-04-08 23:27:59

相关推荐

西瓜书+实战+吴恩达机器学习(十六)半监督学习(半监督SVM 半监督k-means 协同训练算法)

文章目录

0. 前言1. 半监督SVM2. 半监督k-means2.1. 约束k-means2.2. 约束种子k-means3. 协同训练算法

如果这篇文章对你有一点小小的帮助,请给个关注,点个赞喔,我会非常开心的~

0. 前言

半监督学习中部分样本有标记,部分样本无标记

半监督学习可分为两种:

纯半监督学习:希望学得的模型适用于未观察到的数据直推学习:希望对数据集中未标记的样本进行预测

1. 半监督SVM

半监督支持向量机(Semi-Supervised Support Vector Machine)试图找到能将两类有标记样本分开,且穿过数据低密度区域的划分超平面

TSVM(Transductive Support Vector Machine)算法流程:

先利用有标记样本训练一个SVM,然后对未标记的样本进行标记指派寻找两个标记指派为异类且很可能错误的未标记样本,交换它们的标记重新计算超平面,继续迭代第2步,寻求一个在所有样本上间隔最大化的划分超平面

min⁡w,b,y^,ξ12∣∣w∣∣22+Cl∑i=1lξi+Cu∑i=l+1mξis.t.yi(wTxi+b)⩾1−ξi,i=1,...,ly^i(wTxi+b)⩾1−ξi,i=l+1,...,mξi⩾0,i=1,...,m\begin{aligned} \min_{w,b,\hat{y},\xi}\ \ &\frac{1}{2}||w||_2^2+C_l\sum_{i=1}^l\xi_i+C_u\sum_{i=l+1}^m\xi_i\\ s.t.\ \ &y_i(w^Tx_i+b)\geqslant1-\xi_i,\ i=1,...,l\\ &\hat{y}_i(w^Tx_i+b)\geqslant1-\xi_i,\ i=l+1,...,m\\ &\xi_i\geqslant0,\ i=1,...,m \end{aligned} w,b,y^​,ξmin​s.t.​21​∣∣w∣∣22​+Cl​i=1∑l​ξi​+Cu​i=l+1∑m​ξi​yi​(wTxi​+b)⩾1−ξi​,i=1,...,ly^​i​(wTxi​+b)⩾1−ξi​,i=l+1,...,mξi​⩾0,i=1,...,m​

TSVM算法如下图所示(图源:机器学习):

2. 半监督k-means

2.1. 约束k-means

给定数据集DDD,以及“必连”关系集合MMM和“勿连”关系集合CCC,(xi,xj)∈M(x_i,x_j)\in M(xi​,xj​)∈M表示必同簇,(xi,xj)∈C(x_i,x_j)\in C(xi​,xj​)∈C表示必不同簇。

该算法是k-means的扩展,在聚类过程中确保满足约束

算法如下图所示(图源:机器学习):

2.2. 约束种子k-means

给定数据集DDD,以及少量有标记样本。

该算法是k-means的扩展,将有标记样本作为种子样本,初始化时直接使用同类种子样本的均值作为簇中心,每次迭代不改变种子样本的隶属关系

算法如下图所示(图源:机器学习):

3. 协同训练算法

基于分歧的方法使用多学习器,利用学习器之间的分歧对未标记数据训练。

一个数据对象拥有多个属性集,每个属性集对应一个视图。

协同过滤正是利用多视图的相融互补性,在每个视图上训练一个分类器,然后让每个样本选择自己最有把握的未标记样本附上伪标记,给另一个分类器作为新样本训练,如此相互学习,共同进步。

理论显示,如果弱分类器之间具有显著的分歧,那么可通过相互提供伪标记样本提升泛化性能。

算法如下图所示(图源:机器学习):

如果这篇文章对你有一点小小的帮助,请给个关注,点个赞喔,我会非常开心的~

如果觉得《西瓜书+实战+吴恩达机器学习(十六)半监督学习(半监督SVM 半监督k-means 协同训练算法)》对你有帮助,请点赞、收藏,并留下你的观点哦!

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。