10.3969/j.issn.1000-1220.2013.08.026
并行实体解析与记录聚合模型
实体解析用于判断两个数据记录是否描述的是同一实体对象,记录聚合则把所有属于同一实体对象的数据记录进行聚集,建立关联,方便交叉索引.本文基于MapReduce编程模型,提出一种迭代的并行处理框架,采用面向学习的分类方法进行实体解析,根据属性相似的传递性,并结合函数式语言的本身特性,对记录进行高效聚合.相关算法和框架应用于建立医院之间患者标识交叉索引平台,为患者主索引的建立以及信息共享提供依据.实验结果表明,MapReduce编程模型非常适合于实体解析与记录聚合的一体化处理,其编程快捷,运行高效,而且数据分区和并行处理技术避免了大量连接引发的内存溢出问题.
实体解析、记录聚合、MapReduce编程模型、患者标识交叉索引
34
TP311(计算技术、计算机技术)
中央高校基本科研业务专项项目13D111209
2013-11-05(万方平台首次上网日期,不代表论文的发表时间)
共5页
1843-1847