基于内码序值聚类的相似重复记录检测方法
万方数据知识服务平台
应用市场
我的应用
会员HOT
万方期刊
×

点击收藏,不怕下次找不到~

@万方数据
会员HOT

期刊专题

10.3969/j.issn.1001-3695.2010.03.018

基于内码序值聚类的相似重复记录检测方法

引用
检测和消除相似重复记录是数据清理和提高数据质量要解决的关键问题之一,针对相似重复记录问题,提出了基于内码序值聚类的相似重复记录检测方法.该方法先选择关键字段或字段某些位,根据字符的内码序值,利用聚类思想将大数据集聚集成多个小数据集;然后,通过等级法计算各字段的权值,并将其应用在相似重复记录的检测算法中;最后,在各个小数据集中检测和消除相似重复记录.为避免关键字选择不当而造成记录漏查问题,采用多趟检测方法进行多次检测.通过实验表明,该方法具有较好的检测精度和时间效率,能很好地应用到中英文字符集,通用性很强,并能够有效地解决大数据量的相似重复记录检测问题.

相似重复记录、内码序值、聚类、等级法

27

TP311(计算技术、计算机技术)

国家火炬计划资助项目2004EB33006[0];江苏省高校自然科学指导性计划资助项目05JKD520050

2010-05-04(万方平台首次上网日期,不代表论文的发表时间)

共5页

874-878

相关文献
评论
暂无封面信息
查看本期封面目录

计算机应用研究

1001-3695

51-1196/TP

27

2010,27(3)

相关作者
相关机构

专业内容知识聚合服务平台

国家重点研发计划“现代服务业共性关键技术研发及应用示范”重点专项“4.8专业内容知识聚合服务技术研发与创新服务示范”

国家重点研发计划资助 课题编号:2019YFB1406304
National Key R&D Program of China Grant No. 2019YFB1406304

©天津万方数据有限公司 津ICP备20003920号-1

信息网络传播视听节目许可证 许可证号:0108284

网络出版服务许可证:(总)网出证(京)字096号

违法和不良信息举报电话:4000115888    举报邮箱:problem@wanfangdata.com.cn

举报专区:https://www.12377.cn/

客服邮箱:op@wanfangdata.com.cn