基于层次语义的URL排序方法研究
为了提高主题爬取的采集性能,提出了基于层次语义的URL排序算法.主题爬取过程中引入了层次语义的启发信息,采用层次语义组合排序度量进行URL排序,并对层次语义引导主题爬取的采集率性能进行实验研究.实验表明,采用基于层次语义的URL排序方法,爬取过程中由初始URL链接能快速导向某目标主题集的Web文档.同时,当目标主题集的邻近区域没有相关的页面时,逐步放宽主题范围,在较宽的主题区域中爬取,能较快地导向其它不相邻的主题区域.
采集率、层次语义、URL排序、概念树、主题爬取
29
TP393.09(计算技术、计算机技术)
教育部科学基金项目200146:湖南省"十一五"规划基金项目ZC062
2008-09-01(万方平台首次上网日期,不代表论文的发表时间)
共4页
3365-3367,3371