文本特征加权方法TF·IDF的分析与改进

引用

摘要：

TF·IDF作为一种简单、直观、处理速度快的文本特征加权方法,在文本分类中得到广泛应用.但是这种方法简单地认为文本频数少的单词就重要,文本频数多的单词就不重要,使它不可能很好的反映单词的有用程度,从而导致分类准确率下降.针对TF·IDF方法存在的问题,采用在特征发生的条件下类的后验概率分布来衡量特征对分类的有效性,提出了一种基于熵的特征加权方法TF·Ensu.实验结果表明,这种加权方法具有很好的分类性能.

关键词：文本分类、特征选择、熵、特征加权、向量空间模型

所属期刊栏目：29

分类号：TP391(计算技术、计算机技术)

资助基金：国家自然科学基金项目60673089

在线出版日期：2008-07-28（万方平台首次上网日期，不代表论文的发表时间）

页数：共4页

页码：2923-2925,2929

英文信息展示

期刊专题