10.3969/j.issn.1000-9787.2011.11.041
基于熵特征优选分组聚类的相似重复记录检测
针对目前相似重复记录检测方法不能有效处理大数据量的问题,提出一种基于熵的特征优选分组聚类的算法.该方法通过构造一个基于对象间相似度的熵度量,对原始数据集中各属性进行重要性评估,筛选出关键属性集,并依据关键属性将数据划分为不相交的小数据集,在各小数据集中用DBSCAN聚类算法进行相似重复记录的检测.理论分析和实验结果表明:该方法识别精度和检测效率较高.
相似重复记录、熵、特征优选分组聚类
30
TP31l(计算技术、计算机技术)
国家自然科学基金资助项目60964001;广西自然科学基金资助项目09910192;广西信息与通讯实验室主任基金资助项目01902
2012-03-05(万方平台首次上网日期,不代表论文的发表时间)
共4页
135-137,141