10.3969/j.issn.1001-5965.2004.09.008
一种XML相似重复数据的清理方法研究
针对半结构化数据XML在数据清理中的重要性,研究了如何清理XML相似重复数据,主要工作有:提出一种有效的XML相似重复数据清理方法,该方法具有较强的适应性,任何XML相似检测算法都适用于此;给出一种基于树编辑距离的相似检测算法,该算法能有效地检测XML相似重复数据;采用树编辑距离的上下限优化基于树编辑距离的相似检测算法,避免了不必要的树编辑距离计算,降低了相似检测计算的复杂度,提高了运算效率.此工作为研究XML相似重复数据清理打下基础.
规则库、算法库、数据清理、可扩展标记语言、相似重复数据
30
TP311.52(计算技术、计算机技术)
2004-12-16(万方平台首次上网日期,不代表论文的发表时间)
共4页
835-838