10.3969/j.issn.1006-2475.2010.04.028
一种新的基于概念树的主题网络爬虫方法
提出一种新的基于概念树的主题网络爬行方法.与传统基于关键词描述主题的方法不同,本文提出基于叙词表来构建一种称为概念树的表示方法来描述主题的概念.在此基础上,本文给出锚文本和HTML页面内容与主题相关度的计算方法.在分析URL的相关度时,首先判断其锚文本的相关度是否达到一定的阈值σ,只有当锚文本的相关度达不到σ时才会去下载URL对应的页面进行分析,否则将锚文本的相关度作为URL的相关度.这样的URL相关度计算方法可以大大减少不必要的计算开销,又可以充分地利用锚文本的信息.为了比较准确合理地获得阈值σ的取值,本文采用了最小均方差(LMS)的方法.
概念树、主题网络爬行、锚文本、主题相关度
TP393(计算技术、计算机技术)
2010-05-31(万方平台首次上网日期,不代表论文的发表时间)
共5页
103-106,110