10.3969/j.issn.1673-629X.2011.09.029
灵活结构网页的正文提取
在Web数据挖掘中,由于网页大多都含有指向其他页面的超链接等噪音信息,为了减少噪音信息对Web数据挖掘效果的影响,有必要对网页进行净化处理,提取其中的正文,同时,现实中很多网页的代码结构不是特别规范,对此,提出一种对灵活结构网页适用的正文抽取算法.将网页用HTML标签分割成节点形式,找出其中含有正文内容的一个节点,以此节点为基础向前和向后进行余下正文内容的抽取.实验结果表明,本算法的适用性强、正确率较高.
Web数据挖掘、网页内容提取、正文节点、超链接节点、节点权值、链接密度
21
TP391(计算技术、计算机技术)
中山市科技计划项目20092A210
2012-01-15(万方平台首次上网日期,不代表论文的发表时间)
共4页
111-113,117