基于增强BiLSTM-CRF模型的推文恶意软件名称识别

引用

摘要：

针对推文中恶意软件名称识别任务存在的文本简短、非正式、实体类别单一以及实体歧义等问题,提出了一种基于BERT-BiLSTM-Self-attention-CRF的实体识别方法,以实现推文中恶意软件名称的自动识别.在BiLSTM-CRF模型的基础上,利用BERT模型编码单词语境信息,提升词嵌入的上下文语义质量,增强原有模型的语义消歧能力;同时,借助Self-attention机制学习单词间关系和句子结构特征,利用加权表征帮助单一类别实体的解码,以提升恶意软件名称实体的识别效果.通过构建包含恶意软件名称实体的推文标记数据集进行实验测试,结果表明,提出的方法可以实现更好的性能,其精确率、召回率、F1值分别为86.38％,84.73％,85.55％,相较于基线模型BiLSTM-CRF,F1值提升了12.61％.

关键词：恶意软件名称识别、实体消歧、动态词嵌入、类别不均、重要性加权

所属期刊栏目：47

分类号：TP391(计算技术、计算机技术)

资助基金：中国科学院网络测评技术重点实验室开放课题基金NST-18-001

在线出版日期：2020-04-24（万方平台首次上网日期，不代表论文的发表时间）

页数：共6页

页码：245-250

英文信息展示

期刊专题