基于特征类别属性分析的文本分类器分类噪声裁剪方法
提出一种应用文本特征的类别属性进行文本分类过程中的类别噪声裁剪(Eliminating class noise,ECN)的算法.算法通过分析文本关键特征中蕴含的类别指示信息,主动预测待分类文本可能归属的类别集,从而减少参与决策的分类器数目,降低分类延迟,提高分类精度.在中、英文测试语料上的实验表明,该算法的F值分别达到0.76与0.93,而且分类器运行效率也有明显提升,整体性能较好.进一步的实验表明,此算法的扩展性能较好,结合一定的反馈学习策略,分类性能可进一步提高,其F值可达到0.806与0.943.
类别属性分析、类别噪声裁剪、文本分类
33
TP391(计算技术、计算机技术)
国家自然科学基金60435020;60504021
2007-09-17(万方平台首次上网日期,不代表论文的发表时间)
共8页
809-816