融合Focal Loss的网络威胁情报实体抽取

引用

摘要：

网络威胁情报(CTI)蕴含丰富的威胁行为知识,及时分析处理威胁情报能够促进网络攻防由被动防御向主动防御的转变.当前多数威胁情报以自然语言文本的形式存在,包含大量非结构化数据,需要利用实体抽取方法将其转换为结构化数据以便后续处理.然而,由于威胁情报中包含大量漏洞名称、恶意软件、APT组织等专业词汇,且实体分布极不平衡,导致通用领域的实体抽取方法应用于威胁情报时受到极大限制.为此,提出一种融合Focal Loss的实体抽取模型,通过引入平衡因子和调制系数改进交叉熵损失函数,平衡样本分布.此外,针对威胁情报结构复杂且来源广泛,包含大量专业词汇的问题,在模型中增加单词和字符特征,有效改善了威胁情报中的OOV问题.实验结果表明,相较于现有主流模型BiLSTM和BiLSTM-CRF,所提模型在F1分数上分别提高了7.07％和4.79％,验证了引入Focal Loss和字符特征的有效性.

关键词：网络安全、威胁情报、实体抽取、样本不平衡

所属期刊栏目：43

分类号：TP391(计算技术、计算机技术)

资助基金：国家自然科学基金;国家自然科学基金

在线出版日期：2022-08-11（万方平台首次上网日期，不代表论文的发表时间）

页数：共8页

页码：85-92

英文信息展示

期刊专题