10.3969/j.issn.1000-3428.2009.14.026
基于约束树编辑距离与导航树的信息采集
介绍基于网站和网页结构的信息采集算法,提出一种基于约束树编辑距离的导航树算法.该算法通过提取网页的HTML的重要标记生成网页结构的标签树,对网页进行结构分析,通过约束树编辑距离算法判断爬行到的网页与主题的相关性,并根据网站基于URL的拓扑结构,提出基于导航树的信息采集约束信息采集器的爬行路径,提高了目标页面采集的效率和准确率.
标签树、树编辑距离、导航树
35
TP393(计算技术、计算机技术)
2009-08-19(万方平台首次上网日期,不代表论文的发表时间)
共4页
75-77,80