10.3969/j.issn.1006-9348.2021.10.092
信息相似性下网络对抗文本重复数据分级索引
目前重复数据分级索引方法没有对数据进行预处理,存在分级效率低、准确率低和相似数据提取率低的问题.提出信息相似性下网络对抗文本重复数据分级索引方法.方法首先构建出向量空间模型,将所有文本转换成互联网可识别的特定模式,并算出数据特征项及其权重以此将数据进行一个简单分类,并利用编辑距离法详细计算出特征项之间的相似度,最终利用朴素贝叶斯分类器经过重重训练,实现重复数据分级索引.实验结果表明,信息相似性下网络对抗文本重复数据分级索引方法的分级效率较高,准确率较高,相似数据提取率高.
相似度;重复数据;分级索引;降维;特征提取
38
TP391(计算技术、计算机技术)
2021-11-24(万方平台首次上网日期,不代表论文的发表时间)
共5页
462-465,470