10.3969/j.issn.1006-2475.2012.02.034
一种基于单模型的网页净化方法
为了能够更好地获得和处理网页中的正文信息,本文提出基于改进的DOM树和BP神经网络的网页净化算法.该算法根据DOM树和网页内容的特征用HTMLParser把网页转换成一棵内容块树.因网页子内容块具有相当明显的数值特征,可以通过BP神经网络建立网页噪音信息过滤模型.这样使得网页净化更加模型化,也能够取得更加好的效果.
网页净化、DOM树、内容块、神经网络
TP391(计算技术、计算机技术)
2012-04-27(万方平台首次上网日期,不代表论文的发表时间)
共3页
128-130