10.3969/j.issn.1007-757X.2009.08.011
基于HTML标记和长句提取的网页去重算法
提出了一种高效的算法来去除互联网上的重复网页.该算法利用HTML标记过滤网页中的干扰信息,然后提取出能表征一张网页的长句作为网页的特征.通过分析两张网页所共享长句的数量,来判断两张网页是否重复.该算法还利用红黑树对网页的长句进行索引,从而把网页去重过程转换为一个搜索长句的过程,减小了算法的时间复杂度.实验结果表明该算法能够高效,准确地去除重复的网页.
网页去重、页面去杂、长句、红黑树
25
TP393(计算技术、计算机技术)
2009-11-09(万方平台首次上网日期,不代表论文的发表时间)
共3页
30-32