DOI：10.3969/j.issn.1000-3428.2012.11.051

一种统一的Web新闻对象自动抽取方法

引用

摘要：

提出一种统一的Web新闻对象自动抽取方法.通过抽取新闻页面中的分类、标题、发布时间、来源、作者、内容、相关评论链接和相关新闻链接作为分类属性,经页面解析、候选值抽取、真值识别3个步骤,实现新闻对象的自动抽取.实验结果表明,该方法在同时抽取新闻对象的多个属性方面具有较高的准确性,且抽取结果不依赖于特定的页面模板.

关键词：Web数据抽取、视觉特征、序列标注、网页模板、新闻属性、新闻对象

所属期刊栏目：38

分类号：TP391(计算技术、计算机技术)

资助基金：国家"863"计划基金资助项目2008AA01Z421;中国科学技术信息研究所预研基金资助项目YY-201103

在线出版日期：2012-09-29（万方平台首次上网日期，不代表论文的发表时间）

页数：共3页

页码：167-169

英文信息展示

期刊专题