基于LSTM与随机森林混合构架的钓鱼网站识别研究
万方数据知识服务平台
应用市场
我的应用
会员HOT
万方期刊
×

点击收藏,不怕下次找不到~

@万方数据
会员HOT

期刊专题

10.15961/j.jsucse.201700773

基于LSTM与随机森林混合构架的钓鱼网站识别研究

引用
针对传统的钓鱼站点攻击检测模型时延高、效率低、特征提取复杂的问题,提出一种使用长短期记忆网络(long short term memory,LSTM)和随机森林的混合算法模型.该模型主要包括网址上下文特征提取和混合特征分类两部分.首先,根据循环神经网络特点建立128步长的深度网络结构.实验数据参考开源社区提供的钓鱼网站网址和正常网址情报.利用自然语言处理技术对网址数据进行编码得到具有局部特征的网址序列.通过构建的LSTM网络对网址序列进行字符上下文特征提取,结合传统检测方法中的非字符序列特征,共同构成实验特征集.随后,利用随机森林获取每一个特征的最佳分裂点,构建混合特征分类模型.该模型以网址数据为检测源,一方面降低了随机森林的字符序列特征维度,另一方面结合传统钓鱼网址检测中的非序列特征,弥补了LSTM算法检测特征单一的问题.为验证该模型的有效性,设计了本文模型与随机森林算法、LSTM算法的对比实验,并进一步对不同LSTM训练规模的时间成本进行分析.从实验中发现,基于LSTM与随机森林的混合模型大幅度提高了钓鱼网站的识别准确率,模型准确率达到98.52%,比相同训练规模的LSTM准确率高3%,比实验中的单一随机森林准确率高7%.同时,相比于LSTM算法同等幅度的准确率提升,该混合算法具有更小的时间代价.实验结果表明,作者提出的混合模型克服了传统识别模型在特征提取、识别效率上的问题,适合于海量钓鱼网站攻击的快速识别.

长短期记忆、递归神经网络、随机森林、钓鱼攻击检测

50

TP393.08(计算技术、计算机技术)

2018-11-13(万方平台首次上网日期,不代表论文的发表时间)

共6页

196-201

相关文献
评论
暂无封面信息
查看本期封面目录

工程科学与技术

1009-3087

51-1773/TB

50

2018,50(5)

相关作者
相关机构

专业内容知识聚合服务平台

国家重点研发计划“现代服务业共性关键技术研发及应用示范”重点专项“4.8专业内容知识聚合服务技术研发与创新服务示范”

国家重点研发计划资助 课题编号:2019YFB1406304
National Key R&D Program of China Grant No. 2019YFB1406304

©天津万方数据有限公司 津ICP备20003920号-1

信息网络传播视听节目许可证 许可证号:0108284

网络出版服务许可证:(总)网出证(京)字096号

违法和不良信息举报电话:4000115888    举报邮箱:problem@wanfangdata.com.cn

举报专区:https://www.12377.cn/

客服邮箱:op@wanfangdata.com.cn