10.3321/j.issn:1002-8331.2007.19.055
Web文档中词语权重计算方法的改进
以向量空间模型作为Web文本的表示方法,对传统的TF*IDF公式进行了改进.首先,结合Web文本中HTML标签的修饰功能,体现了特征词在Web文本结构中的位置信息;其次,以广义信息论为理论基础,引入了基于二次熵的互信息作为权重计算公式的一项,体现了单词的类区分能力.实验验证了该方法的可行性和有效性.
向量空间模型、Web文本分类、权重调整、互信息
43
TP391(计算技术、计算机技术)
2007-07-30(万方平台首次上网日期,不代表论文的发表时间)
共4页
192-194,198