10.3969/j.issn.1006-2475.2008.07.003
一个面向实时网页分类的主题特征提取算法
网页实时分类是聚焦爬虫需要解决的重要问题,现有主题特征提取方法多数是面向离线分类的,性能达不到应用要求.本文首先扩展了标签树表示模型DocView的节点类型,且将其作为加权的重要因素,然后提出一个面向实时网页分类的Web文本和文本集主题特征提取算法.实验结果表明,算法的准确率提高了31%,主题偏移度降低了1倍多,能够满足应用要求.同时,还提出了一个新的主题特征提取性能评价模型.
文本表示模型、实时分类、主题特征提取、聚焦爬虫
TP391.1(计算技术、计算机技术)
2008-09-08(万方平台首次上网日期,不代表论文的发表时间)
共4页
8-11