DOI：10.3969/j.issn.1006-9348.2021.10.092

信息相似性下网络对抗文本重复数据分级索引

引用

摘要：

目前重复数据分级索引方法没有对数据进行预处理,存在分级效率低、准确率低和相似数据提取率低的问题.提出信息相似性下网络对抗文本重复数据分级索引方法.方法首先构建出向量空间模型,将所有文本转换成互联网可识别的特定模式,并算出数据特征项及其权重以此将数据进行一个简单分类,并利用编辑距离法详细计算出特征项之间的相似度,最终利用朴素贝叶斯分类器经过重重训练,实现重复数据分级索引.实验结果表明,信息相似性下网络对抗文本重复数据分级索引方法的分级效率较高,准确率较高,相似数据提取率高.

关键词：相似度;重复数据;分级索引;降维;特征提取

所属期刊栏目：38

分类号：TP391(计算技术、计算机技术)

在线出版日期：2021-11-24（万方平台首次上网日期，不代表论文的发表时间）

页数：共5页

页码：462-465,470

英文信息展示

期刊专题