10.3969/j.issn.1000-7024.2006.06.008
基于关键词语的文本特征选择及权重计算方案
文本的形式化表示一直是文本分类的重要难题.在被广泛采用的向量空间模型中,文本的每一维特征的权重就是其TFIDF值,这种方法难以突出对文本内容起到关键性作用的特征.提出一种基于关键词语的特征选择及权重计算方案,它利用了文本的结构信息同时运用互信息理论提取出对文本内容起到关键性作用的词语;权重计算则综合了词语位置、词语关系和词语频率等信息,突出了文本中关键词语的贡献,弥补了TFIDF的缺陷.通过采用支持向量机(SVM)分类器进行实验,结果显示提出的Score权重计算法比传统TFIDF法的平均分类准确率要高5%左右.
文本分类、向量空间模型、特征提取、权重计算、支持向量机
27
TP391(计算技术、计算机技术)
中国科学院资助项目60173060
2006-04-25(万方平台首次上网日期,不代表论文的发表时间)
共3页
934-936