10.3969/j.issn.1006-9348.2007.06.083
基于代表样本动态生成的快速文本分类
к-近邻作为一种简单、有效、非参数的分类方法,在文本分类中得到广泛的应用,但是这种方法计算量较大.针对к-近邻法的不足之处,提出了一种新的快速文本分类方法,通过对原始训练样本集的训练生成代表样本,再根据原始训练样本与已生成代表样本之间的分布状况,对已生成的代表样本进行多次调整,从而使代表样本更具有代表性.这种方法有效地压缩了原始训练样本集,提高了分类效率;同时,由于代表样本的分布更加合理,可以提高分类的准确性.实验结果显示,此方法具有很好的分类性能.
文本分类、代表样本、快速分类
24
TP391;TP18(计算技术、计算机技术)
国家自然科学基金60204009;中国科学院重点实验室基金20040104;国家重点基础研究发展计划973计划2004CB318109
2007-07-16(万方平台首次上网日期,不代表论文的发表时间)
共4页
322-325