iAES:面向网络安全博客的IOC自动抽取方法

引用

摘要：

网络威胁指标(IOC)作为网络威胁的行为特征,可以按照标准组织起来并部署在安全系统中防御攻击.博客是重要的网络威胁情报来源,及时从中收集网络威胁指标能够快速应对新的安全威胁,但人工阅读并抽取IOC的方式耗时耗力,所以我们迫切需要一种从网络安全博客中自动抽取IOC的方法.为此,本文提出了一种面向网络安全博客的IOC自动抽取方法iAES(IOC Automatic Extraction System).该方法完成了博客的自动增量爬取、博客页面去噪预处理、结合文本特征和话题特征的博客分类、基于正则表达式匹配和深度学习模型的IOC语句识别、基于上下文语义相似性的IOC格式化.我们通过人工标记的方法建立了博客数据集、语句数据集和IOC数据集,分别对iAES与近期相关研究iACE进行测试,测试结果表明iAES在IOC博客分类、IOC语句分类和安全博客IOC抽取上的表现分别比iACE提升了 9.46％、4.25％和7.11％.进而采用iAES对来自于29个安全博客网站的67 682博文进行测试,并从自动获取的IOC语句中随机选取1000条进行人工验证,结果表明精确率达到94.3％.

关键词：网络安全、网络威胁指标、深度学习、语句分类、IOC抽取

所属期刊栏目：44

分类号：TP393(计算技术、计算机技术)

资助基金：国家自然科学基金61672543

在线出版日期：2021-06-02（万方平台首次上网日期，不代表论文的发表时间）

页数：共15页

页码：882-896

英文信息展示

期刊专题