10.3969/j.issn.1001-3695.2014.11.039
基于MapRed uce的增量式数据集的相似性连接
相似性连接,即利用相似函数度量数据之间的相似程度,满足条件后进行连接操作。MapReduce框架下已存在很多相似性连接算法,但仍然存在一些不足,如大量的索引加大时间、空间的开销;现有算法不能有效地完成增量式数据集的相似性连接等。针对海量增量式数据集进行了研究,采用抽样技术得到有效中枢,形成更为合理的分区,建立分区索引和分配原则,完成新增数据的相似性连接操作。实验证明,该算法能够有效地解决海量增量式数据集的相似性连接问题,验证了分区索引的建立,可以提高新增数据的相似性连接操作的效率。
海量增量式数据集、划分、相似性连接、MapReduce
TP311.1(计算技术、计算机技术)
浙江省公益性技术应用研究计划资助项目2011 C21076
2014-11-15(万方平台首次上网日期,不代表论文的发表时间)
共7页
3369-3374,3384