DOI：10.3969/j.issn.1003-6059.2013.07.009

基于文本密度模型的Web正文抽取

引用

摘要：

　　为从大量无关信息中获取有用内容，正文抽取成为Web数据应用不可或缺的组成部分。文中提出一种基于文本密度模型的新闻网页正文抽取方法。主要通过融合网页结构和语言特征的统计模型，将网页文档按文本行转化成正、负密度序列，再根据邻近行的内容连续性，利用高斯平滑技术修正文本密度序列，最后采用改进的最大子序列分割序列抽取正文内容。该方法保持正文完整性并排除噪声干扰，且无需人工干预或反复训练。实验结果表明基于文本密度抽取正文对不同数据源具有广泛的适应性，且准确率和召回率优于现有统计模型。

关键词：Web挖掘、正文抽取、文本密度、高斯平滑、最大子序列

分类号：TP391(计算技术、计算机技术)

资助基金：国家自然科学基金项目61070099;国家科技支撑计划项目2009BAH41B06

在线出版日期：2013-08-25（万方平台首次上网日期，不代表论文的发表时间）

页数：共6页

页码：667-672

英文信息展示

期刊专题