10.16652/j.issn.1004-373x.2019.21.039
基于χ2统计量的不良文本过滤特征选择方法
针对现有以χ2统计量为基础的特征选择方法在不良文本过滤过程中效果欠佳的问题,利用双层分类对特征选择方法进行改良,提出一种不良文本过滤特征选择方法.首先通过改良逆文档频率来区分特征项在所属类别类内与其他类别之间的分布差别;其次,引入逆类别频率弥补抑制强度;最后,加入逆上层类别频率,清晰划分具有较高相似度的某两类二层类别.所改良的特征选择方法能够弥补现有χ2统计量在类内/类间特征项分布情况判别能力的缺陷,将其应用于不良文本过滤过程,能够充分贴合不良文本过滤过程的特征选择需求.通过对比评估指标的结果,表明所提方法在不良文本过滤领域具有更好的效果.
特征选择、χ2统计量、双层分类、不良文本过滤、特征项分布、评估指标
42
TN911.1-34;TP18
2019-11-22(万方平台首次上网日期,不代表论文的发表时间)
共5页
182-186