DOI：10.3321/j.issn:1002-8331.2006.32.044

使用特征词的统计分布信息进行文本分类

引用

摘要：

文本分类是文本信息处理工作中的一个重要预处理部分.对常用的文本表示模型-向量空间模型的特征词权重估计方法提出了质疑,指出该方法的两个假设前提在一些情况下是不完全正确的,并详细分析了造成这一问题的原因.在此基础上,提出了正确估计特征词权重的三个基本假设,并由此得出新的特征词权重估计方法和文本分类方式,最大限度地利用了文本信息.

关键词：特征词、向量空间模型、统计分布、文本分类、训练集

所属期刊栏目：42

分类号：TP391.3(计算技术、计算机技术)

在线出版日期：2006-12-05（万方平台首次上网日期，不代表论文的发表时间）

页数：共3页

页码：147-149

英文信息展示

期刊专题