|
MovieLens[8]是明尼苏达大学Grouplens工作组于1997年创建的一个影片推荐系统,它通过收集和分析用户评分和用户对电影的喜好数据,形成推荐。本文选取公开的MovieLens数据集作为实验数据,该数据由10万条评分数据组成,评分数据是由943个用户对1682个电影项目的评分组成的,每个用户对至少20部电影进行了评分,评分的范围为1-5。评分越高表示用户的兴趣度越高。每部电影都被分为18个电影类别中的一类或者几类。
本文实验将10万条数据按照8:2的比例进行划分,其中训练集占80%(100000×80%=80000条数据),测试集占20%(100000×20%=20000条数据)。实现语言采用Python。
3.2 评价标准
推荐系统的预测评分值与用户的实际评分值越接近,其推荐质量就越高。MAE(Mean Absolute Error)[9]是一种计算所有单个观测值与算术平均值偏差的绝对值的平均值的方法。平均绝对误差能较好地反映预测值与实际值误差的真实情况。MAE的定义如式(14),通过累计计算实际的用户评分与预测的用户评分的偏差的平均值来度量预测的准确性,MAE值越小,表明算法越精确。
3.3 实验结果
对于项目类型可信度的计算,需要先确定项目的属性矩阵T。MovieLens数据集中的电影共有18种特征属性,每部电影都可以同时具有一个或者多个属性,实验中,使用这些属性构造电影的属性矩阵T。对于评分可信度的计算,我们使用式(9)根据用户项目评分矩阵R构造用户参评矩阵X。
实验中,不断改变项目邻居个数K的数目,使用可信相似度来度量项目间的相似性,以传统的基于项目的协同过滤算法CF作为基准参考方法,对基于可信相似度的协同过滤算法MSCF进行了实验,验证优化效果。实验结果如图1所示。
可以看出,一开始随着最近邻数目的增加,两种相似度算法的MAE值都呈现下降的趋势,并且随着近邻数量的不断增大而趋于平稳。在最近邻数量相同的时候,MSCF的实验效果好于CF的实验效果。这是因为传统相似性计算方法未考虑项目类型的相似性和共同评分用户数量对相似性计算结果的影响,导致求得的最近邻可能不符合实际,从而影响了推荐质量。而改进的基于可信相似度的算法MSCF则综合考虑了两者对相似度计算的影响,因而具有较小的平均绝对偏差MAE。
实验证明,本文提出的基于可信相似度的协同过滤算法的推荐效果要优于传统的协同过滤算法。
4 结束语
在传统的基于项目的协同过滤算法中,项目间相似性计算的精确度是影响推荐质量的关键因素。实际应用中,数据的稀疏性对传统的协同过滤算法产生了很大的影响。同时,最近邻集合中项目的类型的不相似性也对推荐系统的推荐精度产生了消极的影响。本文针对传统相似度计算的问题,提出了一种改进的相似性度量方法,从项目类型的相似性和共同评分的用户数两个方面考虑,计算可信相似度,并将改进的算法在真实数据集上进行了实验。实验的结果表明,改进的方法有效地提高了推荐质量。
参考文献:
[1] Sarvar B. Karypis G, Konstan J, et al. Item-based Collaborativefiltering recommendation algorithms[C]. Proceedings of the 10th International World Wild Web Conference. New York,2001:285-295
[2] 邢春晓,高凤荣,思南等.适应用户兴趣变化的协同过滤推荐算法[J].计算机研究与发展,2007.44(2):296-301
[3] 李改,李磊.基于矩阵分解的协同过滤算法[J].计算机工程与应用,2011.47(30):4-7
[4] 李荟,谢强,丁秋林.一种基于情景的协同过滤推荐算法[J].计算机技术与发展,2014.24(10):42-46
[5] 董丽,邢春晓,王克宏.协作过滤稀疏性算法[J].清华大学学报(自然科学版),2009.49(10):154-157
[6] 郭艳红,邓贵仕.协同过滤系统项目冷启动的混合推荐算法[J].计算机工程,2008.34(23):11-13
[7] 彭石,周志彬,王国军.基于评分矩阵预填充的协同过滤算法[J].计算机工程,2013.1(39):175-178
[8] GroupLens lab at the University of Minnesota. MovieLens Dataset.Available at: http://www.grouplens.org/node/12.
[9] B Jeong, J Lee, H Cho. Improving memory-based collaborativefiltering via similarity updating and prediction modulation[J].Information Sciences,2010.180(5):602-612
|
|
核心期刊网(www.hexinqk.com)秉承“诚以为基,信以为本”的宗旨,为广大学者老师提供投稿辅导、写作指导、核心期刊推荐等服务。 核心期刊网专业期刊发表机构,为学术研究工作者解决北大核心、CSSCI核心、统计源核心、EI核心等投稿辅导咨询与写作指导的问题。 投稿辅导咨询电话:18915033935 投稿辅导客服QQ: 投稿辅导投稿邮箱:1003158336@qq.com |

