DOI：10.19734/j.issn.1001-3695.2017.10.0933

基于Spark的混合协同过滤算法改进与实现

引用

摘要：

针对传统协同过滤在推荐过程中存在的稀疏性、扩展性以及个性化问题,通过引入算法集成的思想,旨在优化和改进一种新型的基于Spark平台下的混合协同过滤.借鉴Stacking集成学习思想,将多个弱推荐器线性加权组合,形成综合性强的推荐器.算法基于近邻协同过滤,结合分类、流行度、好评度等对近邻相似度计算策略进行优化,旨在改善相似度的合理性以及相似度计算的复杂度,在一定程度上改善了评分稀疏性的问题;算法结合Spark分布式计算平台,充分借鉴分布式平台的优点,利用其流式处理以及分布式存储结构等特性,设计并实现一种推荐算法的增量迭型,解决了协同过滤算法扩展性和实时性问题.实验数据采用UCI公用数据集MovieLens和NetFlix电影评分数据.实验结果表明,改进算法在推荐个性化、准确率以及扩展性上都有不错的表现,较以前同类型算法均有不同程度的提高,为推荐系统的应用提供一种可行的算法集成方案.

关键词：集成学习、协同过滤、稀疏性、扩展性、Spark流式计算、增量模型、分类

所属期刊栏目：36

分类号：TP301.6(计算技术、计算机技术)

资助基金：北京市教委科技计划项目KM201310028014

在线出版日期：2019-06-12（万方平台首次上网日期，不代表论文的发表时间）

页数：共6页

页码：855-860

英文信息展示

期刊专题