DOI：10.3969/j.issn.1003-0077.2006.06.001

基于双层决策的新闻网页正文精确抽取

引用

摘要：

本文提出了基于双层决策的新闻网页正文的精确抽取算法,双层决策是指对新闻网页正文所在区域的全局范围决策和对正文范围内每段文字是否确是正文的局部内容决策.首先根据实际应用的需要给出了新闻网页正文的严格界定,然后分析了新闻网页及其正文的特性,提出了基于双层决策的正文抽取策略,基于特征向量提取和决策树学习算法对上述双层决策进行了建模,并在国内10个主要新闻网站的1687个新闻页面上开展了模型训练和测试实验.实验结果表明,上述基于双层决策的方法能够精确地抽取出新闻网页的正文,最终正文抽取与人工标注不完全一致的网页比例仅为18.14%,比单纯局部正文内容决策的方法相对下降了29.85%,同时抽取误差率大于10%的网页比例更是仅为7.11%,满足了实际应用的需要.

关键词：计算机应用、中文信息处理、信息抽取、特征向量、决策树、正文抽取

所属期刊栏目：20

分类号：TP391(计算技术、计算机技术)

资助基金：国家自然科学基金69975018

在线出版日期：2006-12-07（万方平台首次上网日期，不代表论文的发表时间）

页数：共10页

页码：1-9,103

英文信息展示

期刊专题