10.3969/j.issn.1000-3428.2010.13.027
Web页面自顶向下的正文信息定位算法
正文信息是一个Web网页中除了链接、导航、广告等以外的主题信息.提出并实现一种针对含"正文"的Web页面的信息提取算法.该算法采用自顶向F遍历HTML标签树的方法,通过文字链接率、连续文字长度等统计数据不断筛选、分析,从而定位最佳正文信息域,将文字内容提取出来.实验结果表明,该算法可行性强,具有较高的准确率.
正文信息定位、文字链接率、最佳正文子树、标签树
36
TP311(计算技术、计算机技术)
国家"863"计划基金资助项目"Web舆情的社会网络关系挖掘"2007AA01Z440
2010-09-06(万方平台首次上网日期,不代表论文的发表时间)
共3页
76-78