基于Rough集约简算法的中文文本自动分类系统

引用

摘要：

现有的文本自动分类离不开文档向量的构造,向量的分量与文档中的特征项相对应.这种向量通常高达几千维甚至数万维,计算量相当大,因此需要对向量进行约简.而传统的基于频率的阈值过滤法往往会导致有效信息的丢失,影响分类的准确度.该文将Rough集理论引入自动分类,并提出了一种新的文档向量约简算法.实验证明该算法不仅能有效缩减文档向量的规模,而且相比传统的阈值法信息损失小、准确率更高.

关键词：自动分类、Rough集、决策表、约简算法

所属期刊栏目：27

分类号：TP391(计算技术、计算机技术)

资助基金：教育部优秀青年教师资助计划;教育部留学回国人员科研启动基金;国家重点实验室基金;清华大学校科研和教改项目

在线出版日期：2005-08-25（万方平台首次上网日期，不代表论文的发表时间）

页数：共6页

页码：1047-1052

英文信息展示

期刊专题