基于蚁群特征选择的相似重复记录分类检测
为实现相似重复记录的检测,提出一种基于蚁群算法特征选择的分类检测方法.将相似重复记录检测看成二分类问题,定义了字符串型、枚举型和日期型3种典型属性类型的相似特征和归一化算法,以两记录的相似特征向量作为分类器的输入进行检测;建立了以召回率、准确率和特征规模综合最优的特征选择多目标优化模型,并根据问题特点将多目标模型转化为单目标模型,应用蚁群算法设计了模型求解算法.最后,用欧氏距离分类法和支持向量机2种分类器验证了该方法的有效性.
信息处理技术、数据清洗、相似重复记录、蚁群算法、特征选择、支持向量机
31
TP311(计算技术、计算机技术)
中国博士后科学基金资助项目20090461425;江苏省博士后科研资助计划资助项目0901014B
2010-11-29(万方平台首次上网日期,不代表论文的发表时间)
共6页
1222-1227