10.3321/j.issn:1002-8331.2006.32.044
使用特征词的统计分布信息进行文本分类
文本分类是文本信息处理工作中的一个重要预处理部分.对常用的文本表示模型-向量空间模型的特征词权重估计方法提出了质疑,指出该方法的两个假设前提在一些情况下是不完全正确的,并详细分析了造成这一问题的原因.在此基础上,提出了正确估计特征词权重的三个基本假设,并由此得出新的特征词权重估计方法和文本分类方式,最大限度地利用了文本信息.
特征词、向量空间模型、统计分布、文本分类、训练集
42
TP391.3(计算技术、计算机技术)
2006-12-05(万方平台首次上网日期,不代表论文的发表时间)
共3页
147-149