10.3969/j.issn.1672-9722.2020.11.005
基于信息增益与CHI卡方统计的情感文本特征选择
信息增益(IG)是通过某个特征词的缺失与存在两种情况下,语料中前后信息的增加,衡量某个特征词的重要性,其只考虑到对整体贡献,易忽略局部影响;卡方统计(CHI)是利用统计学的"假设检验"的基本思想:首先假设特征词与类别直接是不相关的,其易忽略低频词对文本影响.通过融合IG和CHI两种特征选择算法,并在此基础上对情感词的特征值附加权值区别于非情感词,基于该算法采用支持向量机(SVM)分类算法对文本数据进行情感倾向性分类,实验结果表明,该方式可以极大提高情感分本分类.
信息增益(IG)、卡方统计(CHI)、情感文本、支持向量机(SVM)
48
TP391(计算技术、计算机技术)
2020-12-29(万方平台首次上网日期,不代表论文的发表时间)
共4页
2560-2563