DOI：10.3969/j.issn.1673-629X.2019.01.018

基于Spark的协同过滤算法并行化研究

引用

摘要：

协同过滤算法在推荐系统中应用广泛.但是随着数据量的爆炸式增长,协同过滤算法所需的计算量也随之增长.针对传统的单机集中式计算已无法满足推荐系统的实时性和扩展性要求的问题,基于主流的大数据平台Spark在迭代计算以及内存计算方面的优势,设计了一种基于项目的协同过滤算法在Spark上的并行化方案.该方案利用RDD并行化计算的特点,通过合理设计RDD算子来实现对物品间相似度计算过程和评分计算过程的并行化,同时采用了RDD的缓存机制以及Spark中的广播变量来对一些重要的计算资源进行缓存与分发,从而提高计算速度.用MovieLens公开数据集对基于Spark平台的并行化Item-Based协同过滤算法的性能进行测试,结果表明该并行化协同过滤算法在准确性以及时效性方面均有较好的表现.

关键词：协同过滤、Spark平台、并行化、基于项目

所属期刊栏目：29

分类号：TP301(计算技术、计算机技术)

资助基金：国家自然科学基金61302158,61571238

在线出版日期：2019-03-15（万方平台首次上网日期，不代表论文的发表时间）

页数：共5页

页码：85-89

英文信息展示

期刊专题