10.3969/j.issn.1000-3428.2015.09.014
基于MapReduce与两层相关性聚类的实体解析方法
两层相关性聚类算法由于引入公共邻居,在解析的正确性及抗噪声能力方面性能较好.但该算法分两层执行,在时间效率上不具优势.为此,提出将该算法在MapReduce框架下实现,利用分布式计算提高其执行效率.通过设计辅助文件减少内存消耗以及中间数据的输出,给出分布式环境下的块更新规则,并改写第二层的调整块算法,将需要实时更新的数据统一计算后,根据更为显著的关联特征进行处理.实验结果表明,与TT算法和DTT算法相比,该方法不仅能保证解析的准确性,而且在时间效率上也有大幅提高.
相关性聚类、MapReduce模型、实体解析、大数据、数据集成、分布式计算
41
TP391(计算技术、计算机技术)
国家自然科学基金资助项目61370060;江苏省自然科学基金资助项目BK2011454
2015-11-06(万方平台首次上网日期,不代表论文的发表时间)
共6页
80-84,91