10.3969/j.issn.1673-629X.2009.01.021
一种基于贪婪覆盖的文本分类方法
文本分类是信息检索和数据挖掘中的重要主题之一.文中提出了一种基于贪婪覆盖算法的文本分类方法,首先对文本进行分词,分词的结果用CHI统计量的方法提取特征,使用TF-IDF-ICSD进行特征权重计算.对贪婪覆盖算法采用另一种选取初始点的方法来构建分类器,用复旦大学语料库作为测试数据集,并与BP算法相比较.实验结果表明文本提出的方法是有效的.
文本分类、CHI统计量、TF-IDF-ICSD、贪婪覆盖算法
19
TP311.5(计算技术、计算机技术)
国家重点基础研究973计划资助项目2004CB318108,2007CB311003;国家自然科学基金资助项目60675031
2009-03-31(万方平台首次上网日期,不代表论文的发表时间)
共4页
74-76,80