10.13705/j.issn.1671-6833.2021.04.022
基于CNN和BiLSTM的钓鱼URL检测技术研究
为了解决日益严峻的网络钓鱼问题,提出一种基于卷积神经网络(CNN)和双向长短记忆网络(BiLSTM)的钓鱼URL检测方法CNN-BiLSTM.该方法首先基于敏感词分词的方法对URL分词,根据特殊字符和敏感词对U RL进行单词级别划分,对其中的非敏感词进行字符级别划分,以获取特殊字符和敏感词的有效信息,提升利用URL数据信息的程度;然后将分词后的URL输入到CNN和BiLSTM中,通过CNN获取URL的空间局部特征,通过BiLSTM获取URL的双向长距离依赖特征,基于自动提取的特征检测钓鱼网页.实验结果表明:基于CNN和BiLSTM的钓鱼URL检测方法能够达到较好的检测效果,其准确率达到了98.84%,精确率达到了99.71%,召回率达到了98.04%,F1值达到了98.86%.此方法相对于传统的机器学习和黑名单检测方法,无须人工提取特征且能识别新出现的钓鱼网页.
钓鱼URL;URL分词;卷积神经网络;双向长短记忆网络
42
TP393(计算技术、计算机技术)
国家重点研发计划项目;国家自然科学基金资助项目
2021-12-16(万方平台首次上网日期,不代表论文的发表时间)
共7页
14-20