10.3969/j.issn.1000-3428.2007.08.030
一种有效的网页噪声消除的方法
大多数网页都有如广告、版权、导航链接等噪声,影响Web应用系统的工作质量,因此快速准确地清除网页中的噪声内容是提高Web应用程序性能的关键技术之一.提出了一种网页净化方法,通过用模式树(PT)表示网页的布局结构,根据模式树中节点的信息熵来消除噪声,以达到网页净化的目的.试验将此方法应用于一个SVM分类系统,结果显示通过净化的网页对分类结果的正确率和高效性都有了一定的改进.
文档树、模式树、基本节点、风格节点、网页净化
33
TP391(计算技术、计算机技术)
2007-06-04(万方平台首次上网日期,不代表论文的发表时间)
共3页
89-91