DOI：10.3969/j.issn.1006-9348.2007.06.083

基于代表样本动态生成的快速文本分类

引用

摘要：

к-近邻作为一种简单、有效、非参数的分类方法,在文本分类中得到广泛的应用,但是这种方法计算量较大.针对к-近邻法的不足之处,提出了一种新的快速文本分类方法,通过对原始训练样本集的训练生成代表样本,再根据原始训练样本与已生成代表样本之间的分布状况,对已生成的代表样本进行多次调整,从而使代表样本更具有代表性.这种方法有效地压缩了原始训练样本集,提高了分类效率;同时,由于代表样本的分布更加合理,可以提高分类的准确性.实验结果显示,此方法具有很好的分类性能.

关键词：文本分类、代表样本、快速分类

所属期刊栏目：24

分类号：TP391;TP18(计算技术、计算机技术)

资助基金：国家自然科学基金60204009;中国科学院重点实验室基金20040104;国家重点基础研究发展计划973计划2004CB318109

在线出版日期：2007-07-16（万方平台首次上网日期，不代表论文的发表时间）

页数：共4页

页码：322-325

英文信息展示

期刊专题