10.3969/j.issn.1000-3428.2006.23.022
一种基于同层网页相似性去除网页噪音的方法
一个普通的Web页面可以被分成信息块和噪音块两部分.基于web信息检索的第1步就是过滤掉网页中的噪音块.通过网页的特性可以看出,同层网页大多具有相似的显示风格和噪音块.在VIPS算法的基础上,该文提出一种基于同层网页相似性的匹配算法,这个算法可以被用来过滤网页中的噪音块.通过实验检测,算法可以达到95%以上的准确率.
网页噪音、VIPS算法、相似树比较
32
TP311(计算技术、计算机技术)
2006-12-25(万方平台首次上网日期,不代表论文的发表时间)
共3页
61-63