基于差异-相似矩阵的文本降维方法

引用

摘要：

由于文本文档数量多、词量大,形成的文档空间维度高,很多自动文本分类算法不能直接有效地发挥作用.基于差异-相似矩阵(DSM)的方法在很大程度上降低了文档空间的维度.已经分好类的文集经过预处理后被表示成特征项-文档矩阵,再转化为差异-相似矩阵,其中同类文档采用相似项描述,而异类文档则采用差异项描述.通过对差异-相似矩阵的处理,最终得到维度较低的文本特征集,并同时生成分类规则.实验说明,对于大规模文集,DSM方法能在保持良好的分类质量的同时,获得较高的属性降维率和样本降维率.

关键词：文本分类、维度消减、差异-相似矩阵

所属期刊栏目：25

分类号：TP391.3(计算技术、计算机技术)

资助基金：国家自然科学基金90204008

在线出版日期：2005-09-15（万方平台首次上网日期，不代表论文的发表时间）

页数：共3页

页码：1821-1823

英文信息展示

期刊专题