基于差异-相似矩阵的文本降维方法
由于文本文档数量多、词量大,形成的文档空间维度高,很多自动文本分类算法不能直接有效地发挥作用.基于差异-相似矩阵(DSM)的方法在很大程度上降低了文档空间的维度.已经分好类的文集经过预处理后被表示成特征项-文档矩阵,再转化为差异-相似矩阵,其中同类文档采用相似项描述,而异类文档则采用差异项描述.通过对差异-相似矩阵的处理,最终得到维度较低的文本特征集,并同时生成分类规则.实验说明,对于大规模文集,DSM方法能在保持良好的分类质量的同时,获得较高的属性降维率和样本降维率.
文本分类、维度消减、差异-相似矩阵
25
TP391.3(计算技术、计算机技术)
国家自然科学基金90204008
2005-09-15(万方平台首次上网日期,不代表论文的发表时间)
共3页
1821-1823