10.3969/j.issn.1000-3428.2012.11.051
一种统一的Web新闻对象自动抽取方法
提出一种统一的Web新闻对象自动抽取方法.通过抽取新闻页面中的分类、标题、发布时间、来源、作者、内容、相关评论链接和相关新闻链接作为分类属性,经页面解析、候选值抽取、真值识别3个步骤,实现新闻对象的自动抽取.实验结果表明,该方法在同时抽取新闻对象的多个属性方面具有较高的准确性,且抽取结果不依赖于特定的页面模板.
Web数据抽取、视觉特征、序列标注、网页模板、新闻属性、新闻对象
38
TP391(计算技术、计算机技术)
国家"863"计划基金资助项目2008AA01Z421;中国科学技术信息研究所预研基金资助项目YY-201103
2012-09-29(万方平台首次上网日期,不代表论文的发表时间)
共3页
167-169