DOI：10.3969/j.issn.1003-0077.2002.06.003

一种新的基于统计的自动文本分类方法

引用

摘要：

自动文本分类就是在给定的分类体系下,让计算机根据文本的内容确定与它相关联的类别.为了提高分类性能,本文提出了中文文本多层次特征提取方法和基于核的距离加权KNN算法.多层次特征提取方法在汉字、常用词表和专业词表三个层次上提取文档的统计特征,能够更好地反映文档的统计分布.基于核的距离加权KNN算法解决了样本的多峰分布、边界重叠问题和分类器的精确分类决策问题.实际应用中,互联网和文本库提供了大量经过粗分类的训练文本,但普遍存在样本质量较差的问题,本文通过样本重要性分析技术解决此问题.实验系统证明了新方法的有效性.

关键词：自动文本分类、多层次特征提取、基于核的距离加权KNN算法、样本重要性分析

所属期刊栏目：16

分类号：TP391(计算技术、计算机技术)

资助基金：国家科学数字图书馆重大专项基金CSDL2002-18

在线出版日期：2004-03-12（万方平台首次上网日期，不代表论文的发表时间）

页数：共7页

页码：18-24

英文信息展示

期刊专题