10.3969/j.issn.1000-3428.2015.12.011
基于特征迭代的短文本去重算法
由于短文本具有词频单一、结构简单等特点,基于传统特征选取方法的文本去重算法不适合短文本.为此,提出一种适合短文本特点的去重算法,利用SimHash算法产生短文本的指纹,使用共享最近邻算法对指纹进行聚类,根据聚类结果增删初始特征,迭代直至收敛,从而实现短文本的去重检测.在真实数据集上的实验结果表明,与现有的文本去重算法相比,该算法对于短文本具有更好的去重效果.
SimHash算法、共享最近邻、迭代、特征选择、短文本、去重
41
TP311(计算技术、计算机技术)
国家科技支撑计划基金资助项目2012BAH13F02;上海市科委基金资助项目12511502403,12511509602
2016-02-29(万方平台首次上网日期,不代表论文的发表时间)
共5页
54-57,63