基于Context Graphs的主题爬虫的研究与实现
为了解决传统主题爬虫对主题网页搜索效率偏低的问题,分析了基于网络拓扑结构建模的Context Graphs的爬行策略.考虑了以往Context Graphs方法存在的不足,即没有区分网页不同部分文本的重要程度,通过将锚文字、页面标题和页面内容做综合考虑,对原算法进行了改进.将改进前后的算法进行实验对比,实验结果表明,在提高主题爬行质量方面,改进后的算法达到了更好的效果.
主题爬虫、Context Graphs模型、层次建模、链接分析、内容分析
32
TP393(计算技术、计算机技术)
2011-07-19(万方平台首次上网日期,不代表论文的发表时间)
共4页
914-917