失眠网 > 【Spark机器学习速成宝典】推荐引擎——协同过滤

【Spark机器学习速成宝典】推荐引擎——协同过滤

时间：2024-01-08 01:47:47

rank：对应ALS模型中的因子个数，也就是在低阶近似矩阵中的隐含特征个数。因子个数一般越多越好。但它也会直接影响模型训练和保存时所需的内存开销，尤其是在用户和物品很多的时候。因此实践中该参数常作为训练效果与系统开销之间的调节参数。通常，其合理取值为10到200。

iterations：对应运行时的迭代次数。ALS能确保每次迭代都能降低评级矩阵的重建误差，但一般经少数次迭代后ALS模型便已能收敛为一个比较合理的好模型。这样，大部分情况下都没必要迭代太多次（10次左右一般就挺好）。

lambda：该参数控制模型的正则化过程，从而控制模型的过拟合情况。其值越高，正则化越严厉。该参数的赋值与实际数据的大小、特征和稀疏程度有关。和其他的机器学习模型一样，正则参数应该通过用非样本的测试数据进行交叉验证来调整。

返回目录

# -*-coding=utf-8 -*- from pyspark import SparkConf, SparkContextfrom pyspark.mllib.recommendation import ALS, MatrixFactorizationModel, Ratingsc = SparkContext("local")# 加载和解析数据data = sc.textFile("test.data")ratings = data.map(lambda l: l.split(',')).map(lambda l: Rating(int(l[0]), int(l[1]), float(l[2])))# 使用交替最小二乘算法训练推荐模型rank = 3numIterations = 10model = ALS.train(ratings, rank, numIterations)# 打印用户特征矩阵print "用户特征矩阵:"a = model.userFeatures().collect()for i in a:print str(i[1][0])[:5] + "," + str(i[1][1])[:5] + "," + str(i[1][2])[:5]# 打印物品特征矩阵print "物品特征矩阵:"b = model.productFeatures().collect()for i in b:print str(i[1][0])[:5] + "," + str(i[1][1])[:5] + "," + str(i[1][2])[:5]# 打印用户评分矩阵print "用户评分矩阵:"res = model.recommendProductsForUsers(9) #为每一个用户推荐num个商品def a(userdata):lst = []userid = int(userdata[0])lst.append(userid)for i in userdata[1]:product = str(i.product) + ":" + str(i.rating)[:5]lst.append(product)return lstres = res.map(a).collect()res.sort(key=lambda x:x[0]) for line in res:line = line[1:]#print linej = [i.split(":") for i in line]j.sort(key=lambda x:x[0]) l=""for k in j:l += k[1] + ","print la = model.predict(user=1, product=2)print "预测user1与product2的兴趣度:"print aa = model.recommendUsers(product=2, num=2)print "为商品2寻找潜在的TopK个用户:"print aa = model.recommendProducts(user=1, num=3)print "为user1推荐潜在感兴趣的TopK个商品:"print aa = model.recommendProductsForUsers(num=3).collect()print "为所有用户推荐潜在感兴趣的TopK个商品:" for i in a:print ia = model.recommendUsersForProducts(num=3).collect()print "为所有商品寻找潜在的TopK个用户:" for i in a:print i'''res17/12/23 14:50:00 WARN BLAS: Failed to load implementation from: com.lib.NativeSystemBLAS17/12/23 14:50:00 WARN BLAS: Failed to load implementation from: com.lib.NativeRefBLAS17/12/23 14:50:01 WARN LAPACK: Failed to load implementation from: com.lib.NativeSystemLAPACK17/12/23 14:50:01 WARN LAPACK: Failed to load implementation from: com.lib.NativeRefLAPACK17/12/23 14:50:01 WARN Executor: 1 block locks were not released by TID = 29:[rdd_210_0]17/12/23 14:50:01 WARN Executor: 1 block locks were not released by TID = 30:[rdd_211_0]17/12/23 14:50:01 WARN Executor: 1 block locks were not released by TID = 31:[rdd_210_0]17/12/23 14:50:01 WARN Executor: 1 block locks were not released by TID = 32:[rdd_211_0]用户特征矩阵:0.575,-0.52,-0.760.165,1.110,-0.510.597,0.941,-0.070.516,0.430,-0.52-0.28,0.113,1.0370.385,-0.34,-1.070.236,0.805,-0.66物品特征矩阵:2.467,1.397,-7.931.896,3.044,-0.173.575,3.367,-3.251.584,2.145,-0.48-1.53,3.854,5.9021.358,-0.08,-4.120.121,6.417,0.2993.823,-3.44,-5.182.387,3.749,-0.29用户评分矩阵:6.801,-0.36,2.801,0.163,-7.44,4.000,-3.52,7.996,-0.36,6.028,3.787,6.000,2.895,1.003,2.241,6.992,-0.53,4.712,3.357,4.013,5.539,3.002,2.295,1.025,6.095,-0.58,4.979,6.020,2.383,4.995,1.996,-2.21,2.815,2.670,3.197,3.002,-8.78,-0.38,-4.02,-0.71,6.996,-4.67,1.001,-6.86,-0.56,9.004,-0.13,3.707,0.386,-8.28,4.986,-2.51,8.252,-0.06,6.998,3.020,5.727,2.427,-1.19,2.997,4.996,1.587,3.783,预测user与product的兴趣度:-0.364804845726为商品2寻找潜在的TopK个用户:[Rating(user=3, product=2, rating=4.013395373544592), Rating(user=2, product=2, rating=3.7876436839883194)]为user1推荐潜在感兴趣的TopK个商品:[Rating(user=1, product=8, rating=7.996952478409568), Rating(user=1, product=1, rating=6.801415502963593), Rating(user=1, product=6, rating=4.000096674124945)]为所有用户推荐潜在感兴趣的TopK个商品:(4, (Rating(user=4, product=1, rating=6.020880222950041), Rating(user=4, product=3, rating=4.995487526087871), Rating(user=4, product=8, rating=3.1971086869642846)))(1, (Rating(user=1, product=8, rating=7.996952478409568), Rating(user=1, product=1, rating=6.801415502963593), Rating(user=1, product=6, rating=4.000096674124945)))(6, (Rating(user=6, product=1, rating=9.004180651398052), Rating(user=6, product=8, rating=8.25221831618579), Rating(user=6, product=6, rating=4.986725295866833)))(3, (Rating(user=3, product=7, rating=6.095926975521101), Rating(user=3, product=3, rating=5.5399318710354155), Rating(user=3, product=9, rating=4.979915488571464)))(7, (Rating(user=7, product=1, rating=6.998396543388047), Rating(user=7, product=3, rating=5.72731910674824), Rating(user=7, product=7, rating=4.9965585464819355)))(5, (Rating(user=5, product=5, rating=6.996394158606613), Rating(user=5, product=7, rating=1.0018132801060546), Rating(user=5, product=2, rating=-0.386246390781805)))(2, (Rating(user=2, product=7, rating=6.9928960101812), Rating(user=2, product=1, rating=6.02809652321465), Rating(user=2, product=3, rating=6.000155003043972)))为所有商品寻找潜在的TopK个用户:(4, (Rating(user=3, product=4, rating=3.0029246134929766), Rating(user=2, product=4, rating=2.8953672065005556), Rating(user=7, product=4, rating=2.427766056801616)))(1, (Rating(user=6, product=1, rating=9.004180651398052), Rating(user=7, product=1, rating=6.998396543388047), Rating(user=1, product=1, rating=6.801415502963593)))(6, (Rating(user=6, product=6, rating=4.986725295866833), Rating(user=1, product=6, rating=4.000096674124945), Rating(user=7, product=6, rating=2.997989324292092)))(3, (Rating(user=2, product=3, rating=6.000155003043972), Rating(user=7, product=3, rating=5.72731910674824), Rating(user=3, product=3, rating=5.5399318710354155)))(7, (Rating(user=2, product=7, rating=6.9928960101812), Rating(user=3, product=7, rating=6.095926975521101), Rating(user=7, product=7, rating=4.9965585464819355)))(9, (Rating(user=3, product=9, rating=4.979915488571464), Rating(user=2, product=9, rating=4.712732268716017), Rating(user=7, product=9, rating=3.7833941032831433)))(8, (Rating(user=6, product=8, rating=8.25221831618579), Rating(user=1, product=8, rating=7.996952478409568), Rating(user=4, product=8, rating=3.1971086869642846)))(5, (Rating(user=5, product=5, rating=6.996394158606613), Rating(user=3, product=5, rating=2.295168542063017), Rating(user=2, product=5, rating=1.0030496463981144)))(2, (Rating(user=3, product=2, rating=4.013395373544592), Rating(user=2, product=2, rating=3.7876436839883194), Rating(user=7, product=2, rating=3.0206127312499014)))�ɹ�: ��ֹ PID 59904 (�� PID 59620 �ӽ��)�Ľ��̡��ɹ�: ��ֹ PID 59620 (�� PID 59484 �ӽ��)�Ľ��̡��ɹ�: ��ֹ PID 59484 (�� PID 46708 �ӽ��)�Ľ��̡�'''

test.data数据：

1,6,4.01,8,8.02,3,6.02,5,1.02,7,7.03,2,4.03,4,3.03,9,5.04,3,5.04,4,2.04,9,3.05,5,7.05,7,1.06,1,9.06,6,5.07,1,7.07,6,3.07,7,5.0

返回目录

在显式矩阵分解的训练集中，我们有用户对商品的评级，用户评分的高低决定了用户对商品的感兴趣的程度，假设有10个等级，那么评1级就是意味着讨厌，评10级意味着非常喜欢。

但是，有些时候我们没有用户显式的打分数据，而是有用户的行为数据。

比如：用户对某一个电影观看多次，可以说这个用户喜欢这个电影，而且置信度很高；如果用户对某个电影观看了一次，我们也可以说用户喜欢这个电影，只是置信度低。

下面介绍：隐式矩阵分解。

首先我们有数据集：

先将数据集依照公式：

，

拆成2个矩阵：二元偏好矩阵P、信心权重矩阵C（这里取α=0.1，α也是一个正则化参数）

代价函数是：