一种应用于机器学习的恶意网页特征提取方法

引用

摘要：

基于机器学习的恶意网页检测技术进行研究.目前流行的"特征码""白名单"等方式,仅能够检测已知的恶意网页;机器学习方法,能够检测出未知的恶意网页,但在处理网页特征时要面临数据量大、复杂和繁琐的问题.提出一种哈希压缩的方法,用于处理网页的特征数据.该方法在保证检测模型的漏报率和误报率下可实现将150万的特征映射在2万的特征空间内,对提取出的特征数据运用K折交叉验证法训练多个传统机器学习模型和集成学习模型.并通过评估模型的检测效果,筛选出表现最好的分类检测模型.

关键词：机器学习、恶意网页检测、哈希压缩

所属期刊栏目：48

分类号：TP181(自动化基础理论)

在线出版日期：2023-01-11（万方平台首次上网日期，不代表论文的发表时间）

页数：共6页

页码：122-127

英文信息展示

期刊专题