多级字典存储的未知文本协议候选关键词链式合并方法
关键词提取是进行未知网络协议逆向的关键步骤.鉴于现有的关键词提取方法存在精确度不高、需要较多先验知识、操作繁琐等问题,提出了一种基于位置信息的关键词自动化提取算法.首先,通过 Trigram分词获取候选关键词,附加上位置信息后,将其组织成多级字典;在此基础上,根据位置信息将传统的对候选关键词进行树状合并改进为对其进行链式合并,以获得更精确的最长候选关键词.实验结果表明,当设置频繁度阈值为 0.6 时,该方法即可以准确提取出文本协议的关键词.同时,分析了频繁度的设置对实验效果的影响,并讨论了基于频繁序列对关键词进行挖掘的相关算法的局限性.
位置信息、关键词提取、未知文本协议、Trigram、链式、多级字典
47
TP393(计算技术、计算机技术)
国家重点研发计划;江苏省自然科学基金
2020-12-28(万方平台首次上网日期,不代表论文的发表时间)
共4页
332-335