10.3969/j.issn.1001-8972.2009.06.052
基于BFO的主题爬行算法
首先给出了主题网络爬虫的定义和研究目标;然后系统分析了近年来国内外主题爬虫的研究方法和技术,包括基于文字内容的方法,基于超链分析的方法,基于分类器预测的方法以及其他主题爬行方法,并比较了各种方法优缺点;通过比较分析发现Best-First算法虽然有它的不足,但是它在几种算法中表现的性能最优.故以Best-First算法为基础,提出了BFO算法.对BFO算法进行性能评价,发现应用此算法搜索不但"召回率"和"收获率"有所提高,还能在一定程度上找到全局围内的最优解.最后对未来的研究方向进行了展望.
主题网络爬虫、Best-First算法、召回率
TP391(计算技术、计算机技术)
2009-05-12(万方平台首次上网日期,不代表论文的发表时间)
共3页
112-113,122