10.3969/j.issn.1006-9348.2022.07.095
基于词频和信息熵改进的卡方特征选择
针对传统CHI方法在选择文本特征时忽略了低频词缺陷和混淆负相关特征的问题,提出一种改进方法.通过考虑特征在类内、类间的分布情况,给CHI模型补充词频信息,弥补单纯依靠文档频率的不足;为了排除某个类别的干扰特征,采用信息熵理论从全局的角度进行衡量,筛选具有类别代表性的词汇.实验结果表明,改进方法分类性能上较传统方法有一定提升,能减少冗余词汇,去除干扰项,增强特征集合的表示效果,最终改善文本语料的分类表现.
低频词缺陷、负相关、特征选择、卡方统计、信息熵
39
TP391(计算技术、计算机技术)
2022-09-05(万方平台首次上网日期,不代表论文的发表时间)
共5页
492-496