10.3969/j.issn.1003-0077.2018.05.010
基于潜在语义分析的文本指纹提取方法
网络化大数据时代的到来丰富了网络空间中的信息资源,然而由于数据资源类型的多样性及其增长的快速性,给网络空间的存储和信息资源的有效利用带来了压力和挑战.该文提出了一种基于潜在语义分析的文本指纹提取方法,该方法是对数据信息的一种压缩表示,是针对目前指纹提取方法语义缺失的一种改进.该方法主要通过奇异值分解获取原始文档的潜在语义特征,然后将原文档向量空间转换到与其对应的潜在语义空间,再根据随机超平面原理将该空间的文档转换成二进制数字指纹,最终用汉明距离来衡量指纹间的差异程度.实验以中国知网上的学术论文作为数据对象,通过对论文文本进行相似度实验和聚类实验对该文提出的方法进行实验验证.实验结果表明该方法能够较好地表征文档语义信息,进而验证了文本语义压缩表示的准确性和有效性.
文本指纹、奇异值分解、潜在语义分析、随机超平面原理
32
TP391(计算技术、计算机技术)
国家语委"十二五"科研规划项目YB125-178;吉林省科技发展计划项目20140101186JC
2018-07-02(万方平台首次上网日期,不代表论文的发表时间)
共6页
74-79