口令中的热词发现与分析
词汇是口令集的重要特征,但是对其定量分析一直没有得到足够重视.本文首先提出了基于有效频度的高频词汇(热词)发现方法,较传统方法可以有效排除热词子串的干扰,提升了热词发现的准确性.在我们开发的热词发现软件中,使用了压缩字典树以提高热词发现的性能.使用上述方法,我们得到了CSDN和RockYou两个口令集中的热词集合.通过分析频度最高的100条热词,我们发现了中国大陆用户和西方国家用户在口令用词方面的区别.与现有语料库的相关性分析,也进一步证实了两者的显著差异.本文还提出通过余弦相似度方法来定量衡量两个口令集合在热词方面的差异.对多个口令集合的分析表明,这种方法可以有效区分不同地域的口令集合.本文所做的研究工作定量地描述了口令集用词特征,对于构造具有针对性的语料库和提升口令猜测效率具有重要意义.
口令、字典树、余弦相似性
5
TN918.2
NSFC-广东联合基金 第二期 超级计算科学应用研究专项U1501501;数学工程与先进计算国家重点实验室开放基金2018A12
2019-01-12(万方平台首次上网日期,不代表论文的发表时间)
共9页
671-679