iAES:面向网络安全博客的IOC自动抽取方法
网络威胁指标(IOC)作为网络威胁的行为特征,可以按照标准组织起来并部署在安全系统中防御攻击.博客是重要的网络威胁情报来源,及时从中收集网络威胁指标能够快速应对新的安全威胁,但人工阅读并抽取IOC的方式耗时耗力,所以我们迫切需要一种从网络安全博客中自动抽取IOC的方法.为此,本文提出了一种面向网络安全博客的IOC自动抽取方法iAES(IOC Automatic Extraction System).该方法完成了博客的自动增量爬取、博客页面去噪预处理、结合文本特征和话题特征的博客分类、基于正则表达式匹配和深度学习模型的IOC语句识别、基于上下文语义相似性的IOC格式化.我们通过人工标记的方法建立了博客数据集、语句数据集和IOC数据集,分别对iAES与近期相关研究iACE进行测试,测试结果表明iAES在IOC博客分类、IOC语句分类和安全博客IOC抽取上的表现分别比iACE提升了 9.46%、4.25%和7.11%.进而采用iAES对来自于29个安全博客网站的67 682博文进行测试,并从自动获取的IOC语句中随机选取1000条进行人工验证,结果表明精确率达到94.3%.
网络安全、网络威胁指标、深度学习、语句分类、IOC抽取
44
TP393(计算技术、计算机技术)
国家自然科学基金61672543
2021-06-02(万方平台首次上网日期,不代表论文的发表时间)
共15页
882-896