10.3969/j.issn.1004-1478.2011.03.021
一种新的用于数据挖掘工具的网页净化算法
为了更好地消除网页噪声,有效地提取网页的主题内容,提出了一种新的网页净化算法.该算法认为网页的主题内容主要包含在< table>标记和<p>标记里面,并据此对网页噪声进行预处理,然后与相关网页进行内容匹配,通过计算节点重要度,获取网页的主题内容.对门户网站的6318个网页的检测表明,该算法可以有效地提取网页的主题内容,准确率达到98.2%以上.用于数据挖掘工具时,该算法优于其他同类算法,可以有效地去除网页噪声.
网页净化、网页噪声、文档对象模型、阈值
26
TP393.08(计算技术、计算机技术)
2012-01-15(万方平台首次上网日期,不代表论文的发表时间)
共4页
85-87,91