10.11896/j.issn.1002-137X.2016.8.020
基于关键词重提取的密文文本相似性度量方法研究
针对密文的相似性度量问题,提出了一种新的密文文本相似性度量方法.该方法通过定义关键词的有效作用域、相对作用域、分散域的概念,有效克服了现有的关键词权重量化方法不能对篇幅不同、结构不同的文档进行相对公平的关键词权重量化的不足,同时显著减少了文本度量时所依赖的关键词数量.进一步对文档的关键词进行重提取,并建立文档的关键词密文索引条目,通过密文的索引条目来度量密文的相似性.将该方法在真实文档上进行实验,并同其它算法进行比较,结果表明所提出的方法在准确率和召回率两方面优于其它参与比较的算法,并能在准确率和召回率之间取得比较好的平衡.
关键词重提取、相似性度量、密文文本、作用域
43
TP309.5(计算技术、计算机技术)
江苏省科技厅产学研前瞻项目BY2013015-23
2016-10-08(万方平台首次上网日期,不代表论文的发表时间)
共5页
95-99