10.3969/j.issn.1000-3428.2007.21.018
基于网站拓扑的网页内容精化算法
通过对网页中无关信息分布特点和模式的分析,提出了一种新颖的网页内容精化算法--基于网站拓扑信息的网页无关内容识别与剔除算法.该算法在对网页内容进行分区后,认定与父节点网页具有相同内容的分区为该网页无关信息内容分区并将其删除.测试结果表明,该算法具有较高的识别率及精度.
网页内容精化、信息提取、网站拓扑
33
TP391(计算技术、计算机技术)
国家自然科学基金70472041;广东省广州市社会科学基金
2008-01-14(万方平台首次上网日期,不代表论文的发表时间)
共3页
50-51,54