10.3969/j.issn.1000-0135.2008.01.009
网页自动分类中特征权重计算方法的改进
目前,在网页分类中,对HTML主要结构特征进行加权的常用方法是绝对数值加权方法.这种方法的缺点是加权系数为定值,其对长文本和短文本所起的作用不同,使得结构特征对正文的影响随着正文长度的增加而削弱.针对该缺点,本文提出了一种改进型加权方法,即相对数值加权方法.通过网页层次分类的实验,比较了这两种方法对单个标签域以及多个标签域结合的分类性能.实验结果表明,相对数值加权方法能有效提高分类的精确度,并且效果优于绝对数值加权方法.
网页分类、层次分类、特征项、权重算法、相对数值加权
27
G35(情报学、情报工作)
2008-03-03(万方平台首次上网日期,不代表论文的发表时间)
共6页
56-61