DOI：10.3969/j.issn.1000-3428.2010.13.027

Web页面自顶向下的正文信息定位算法

引用

摘要：

正文信息是一个Web网页中除了链接、导航、广告等以外的主题信息.提出并实现一种针对含"正文"的Web页面的信息提取算法.该算法采用自顶向F遍历HTML标签树的方法,通过文字链接率、连续文字长度等统计数据不断筛选、分析,从而定位最佳正文信息域,将文字内容提取出来.实验结果表明,该算法可行性强,具有较高的准确率.

关键词：正文信息定位、文字链接率、最佳正文子树、标签树

所属期刊栏目：36

分类号：TP311(计算技术、计算机技术)

资助基金：国家"863"计划基金资助项目"Web舆情的社会网络关系挖掘"2007AA01Z440

在线出版日期：2010-09-06（万方平台首次上网日期，不代表论文的发表时间）

页数：共3页

页码：76-78

英文信息展示

期刊专题