DOI：10.3969/j.issn.1000-3428.2013.12.043

结合网页结构与文本特征的正文提取方法

引用

摘要：

网页中存在正文信息以及与正文无关的信息，无关信息的存在对Web页面的分类、存储及检索等带来负面的影响。为降低无关信息的影响，从网页的结构特征和文本特征出发，提出一种结合网页结构特征与文本特征的正文提取方法。通过正则表达式去除网页中的无关元素，完成对网页的初次过滤。根据网页的结构特征对网页进行线性分块，依据各个块的文本特征将其区分为链接块与文本块，并利用噪音块连续出现的结果完成对正文部分的定位，得到网页正文信息。实验结果表明，该方法能够快速准确地提取网页的正文内容。

关键词：正文提取、网页去噪、网页分块、主题爬行、信息检索、Web挖掘

分类号：TP18(自动化基础理论)

资助基金：国家自然科学基金资助项目71102065

在线出版日期：2013-12-30（万方平台首次上网日期，不代表论文的发表时间）

页数：共5页

页码：200-203,210

英文信息展示

期刊专题