DOI：10.3969/j.issn.1007-757X.2009.08.011

基于HTML标记和长句提取的网页去重算法

引用

摘要：

提出了一种高效的算法来去除互联网上的重复网页.该算法利用HTML标记过滤网页中的干扰信息,然后提取出能表征一张网页的长句作为网页的特征.通过分析两张网页所共享长句的数量,来判断两张网页是否重复.该算法还利用红黑树对网页的长句进行索引,从而把网页去重过程转换为一个搜索长句的过程,减小了算法的时间复杂度.实验结果表明该算法能够高效,准确地去除重复的网页.

关键词：网页去重、页面去杂、长句、红黑树

所属期刊栏目：25

分类号：TP393(计算技术、计算机技术)

在线出版日期：2009-11-09（万方平台首次上网日期，不代表论文的发表时间）

页数：共3页

页码：30-32

英文信息展示

期刊专题