双缀过滤的大数据相似性连接处理算法
万方数据知识服务平台
应用市场
我的应用
会员HOT
万方期刊
×

点击收藏,不怕下次找不到~

@万方数据
会员HOT

期刊专题

10.3778/j.issn.1673-9418.1608045

双缀过滤的大数据相似性连接处理算法

引用
相似性连接技术是实体识别和数据集成的关键技术之一,是挖掘数据中有价值信息的重要手段.随着大数据发展,传统的集中式相似性连接已经无法满足人们对数据处理的时效性需求,并且利用分布式计算可以提高相似性连接的执行效率.因此,深入研究了基于Spark的分布式相似性连接处理算法.针对仅使用后缀位置信息过滤方法的不足,提出了利用一条记录前缀与另一条记录后缀间共同元素位置信息来进行过滤的分布式相似性连接PSJoin,提高了相似性连接的处理效率,减少了相似性连接的执行时间.同时,针对基于权重的相似度连接算法的过滤问题,结合双缀过滤原理,通过一条记录前缀共同元素之后的第一个元素的权重与另一条记录后缀中元素权重大小的关系,提出了基于双缀过滤的分布式权重相似性连接WTPSJoin.为面向大数据的相似性连接计算提供了两种可靠的解决方案.两种算法在多数据源混合数据集上进行测试实验,实验结果表明,所提算法相对于已有的过滤算法过滤效果好,执行时间少,同时具有良好的加速比.

相似性连接、权重相似性连接、大数据、过滤、Spark

11

TP316(计算技术、计算机技术)

The National Natural Science Foundation of China under Grant Nos. 61402089, 61472069, 61502215;the Fun-damental Research Funds for the Central Universities of China under Grant No. N150408001;the Natural Science Foundation of Liaoning Province under Grant No. 2015020553

2017-08-28(万方平台首次上网日期,不代表论文的发表时间)

共11页

1235-1245

相关文献
评论
暂无封面信息
查看本期封面目录

计算机科学与探索

1673-9418

11-5602/TP

11

2017,11(8)

相关作者
相关机构

专业内容知识聚合服务平台

国家重点研发计划“现代服务业共性关键技术研发及应用示范”重点专项“4.8专业内容知识聚合服务技术研发与创新服务示范”

国家重点研发计划资助 课题编号:2019YFB1406304
National Key R&D Program of China Grant No. 2019YFB1406304

©天津万方数据有限公司 津ICP备20003920号-1

信息网络传播视听节目许可证 许可证号:0108284

网络出版服务许可证:(总)网出证(京)字096号

违法和不良信息举报电话:4000115888    举报邮箱:problem@wanfangdata.com.cn

举报专区:https://www.12377.cn/

客服邮箱:op@wanfangdata.com.cn