基于Rough集约简算法的中文文本自动分类系统
现有的文本自动分类离不开文档向量的构造,向量的分量与文档中的特征项相对应.这种向量通常高达几千维甚至数万维,计算量相当大,因此需要对向量进行约简.而传统的基于频率的阈值过滤法往往会导致有效信息的丢失,影响分类的准确度.该文将Rough集理论引入自动分类,并提出了一种新的文档向量约简算法.实验证明该算法不仅能有效缩减文档向量的规模,而且相比传统的阈值法信息损失小、准确率更高.
自动分类、Rough集、决策表、约简算法
27
TP391(计算技术、计算机技术)
教育部优秀青年教师资助计划;教育部留学回国人员科研启动基金;国家重点实验室基金;清华大学校科研和教改项目
2005-08-25(万方平台首次上网日期,不代表论文的发表时间)
共6页
1047-1052