10.3969/j.issn.1000-3428.2016.08.035
一种基于概率的卡方特征选择方法
传统卡方特征选择方法没有考虑在不均衡数据集上词出现的类别数量、词的频度以及在类间与类内的分布情况等,以致不能为不同的类别选择出有效的特征词.为此,提出一种卡方特征选择方法.以词概率和文档概率衡量词文档频繁程度,并用来分别计算类别频数因子、词的类间集中因子、词在类内的均衡度因子、文档的类间集中因子.基于这些因子修正卡方值,利用同一个词不同类别的差异程度因子,使得改进的卡方能选出更高效的特征词.文本分类实验结果表明,与改进前的方法相比,该方法能使宏观F1值得到一定程度的提高,在不均衡数据集上具有更好的分类效果.
文本分类、卡方统计、特征选择、不均衡数据集、概率方法
42
TP301.6(计算技术、计算机技术)
国家科技支撑计划基金资助项目“节能减排监测控制技术信息集成平台开发”2012BAK30B04-02
2016-10-14(万方平台首次上网日期,不代表论文的发表时间)
共6页
194-198,205