基于距离的自适应Web数据库记录匹配方法

引用

摘要：

Web数据库环境的重复记录识别是Deep Web信息集成的重要步骤,具有查询依赖性、缺乏训练样本、在线处理要求等特征,导致现有的实体识别技术无法适用.在分析现有方法基础上,引入动态属性权重调整思想,提出基于距离的自适应记录匹配算法,在计算记录对的相似度时,加大匹配记录集合中相似度较大的属性的权重,并加大非匹配记录集合中相似度较小的属性的权重,迭代处理从而达到自适应动态调整各个属性权重的目标.该方法不需要训练样本,也不需要人工参与,实验结果表明其适用于Web数据库环境的重复记录识别处理.

关键词：Web数据库、记录匹配、实体识别、比较向量、权重向量

所属期刊栏目：58

分类号：TP393(计算技术、计算机技术)

资助基金：国家自然科学基金60975050;高等学校博士学科点专项科研基金20070486081;中央高校基本科研业务费专项资金6081014

在线出版日期：2012-06-02（万方平台首次上网日期，不代表论文的发表时间）

页数：共6页

页码：89-94

英文信息展示

期刊专题