10.3969/j.issn.1672-9870.2019.02.018
基于卡方方法及对称不确定性的网络流量特征选择方法
对网络流量数据进行分类时,由于网络流量具有多个类别,并且各类样本数量不均衡,故在利用机器学习进行分类时,会导致分类的模型的性能降低,致使样本被误分为样本数量多的类别,进而致使样本数量较少的类别(小类别)的召回率过低.针对该问题,提出一种基于卡方方法及对称不确定性网络流量特征选择方法.该方法首先计算特征与类之间的加权卡方值,选择卡方值较大的特征组成候选特征子集,然后根据特征与所有类之间的对称不确定性进一步筛选特征集.在Moore网络流量数据集上进行实验,得到的实验结果证明,通过该方法选择的特征对网络流量数据进行分类,在保证准确率高的前提下也得到了较高的小类召回率,减轻了数据不均衡问题带来的不良影响.
数据不均衡、网络流量、相对不确定性、召回率
42
TP393(计算技术、计算机技术)
国家自然科学基金资助项目51378076
2019-11-29(万方平台首次上网日期,不代表论文的发表时间)
共5页
74-78