10.3778/j.issn.1673-9418.2010.07.003
多Web数据源环境下的重复实体识别方法研究
Web中大量可访问的数据源为人们获取有用的信息带来了极大的便利.作为Web数据源集成的一个必要的步骤,需要将存在于不同数据源表达形式各异的重复Web实体准确地识别出来.在已有的重复实体识别的工作中,主要是在两个数据源之间进行.由于Web数据源数量众多,使得这些方法无法应用于多个Web数据源之间的重复实体识别.针对这个问题提出了一种基于迭代训练的Web重复实体识别方法,可以在较小规模的训练样本上实现在多个Web数据源上的重复实体识别.通过在图书和计算机产品两个不同领域中多个Web数据源上的广泛实验,表明了提出方法的有效性.
Web实体、重复实体识别、Web数据集成、迭代训练
4
TP301(计算技术、计算机技术)
The National Natural Science Foundation of China under Grant No.60875033;the China Postdoctoral Science Foundation under Grant No. 20080440256, 200902014
2010-09-06(万方平台首次上网日期,不代表论文的发表时间)
共9页
599-607