10.12011/1000-6788-2018-0050-11
实体解析中基于相似性传递的增量分组研究
本文探讨一种适应于大数据集的基于相似性传递的记录增量分组方法.论文首先分析如何逐步推算出记录之间的相似性,然后提出如何基于排序键构建基准组,如何基于相似性传递增量更新基准组,以及如何基于并查集实现基准组中的增量更新,最后通过实验验证提出方法的可行性和高效性.实验结果显示,提出的方法比传统方法更能提高分组质量,提升分组效率.论文没有对属性值本身存在的数据质量问题进行详细分析研究,并没有设计排序键生成算法.提出的方法不仅能有助于解决数据清洗、信息集成与管理等技术中的记录漏配问题,而且具有较好的可扩展性可重用性和不受领域限制等优点因为它仅从纯数据处理的角度来设计算法.
排序键、相似性传递、并查集、实体解析、数据质量
39
TP301(计算技术、计算机技术)
国家自然科学基金71761008;广西高校人文社会科学重点研究基地基金16YB010
2019-06-11(万方平台首次上网日期,不代表论文的发表时间)
共11页
1287-1297