10.3969/j.issn.1003-6059.2013.07.009
基于文本密度模型的Web正文抽取
为从大量无关信息中获取有用内容,正文抽取成为Web数据应用不可或缺的组成部分。文中提出一种基于文本密度模型的新闻网页正文抽取方法。主要通过融合网页结构和语言特征的统计模型,将网页文档按文本行转化成正、负密度序列,再根据邻近行的内容连续性,利用高斯平滑技术修正文本密度序列,最后采用改进的最大子序列分割序列抽取正文内容。该方法保持正文完整性并排除噪声干扰,且无需人工干预或反复训练。实验结果表明基于文本密度抽取正文对不同数据源具有广泛的适应性,且准确率和召回率优于现有统计模型。
Web挖掘、正文抽取、文本密度、高斯平滑、最大子序列
TP391(计算技术、计算机技术)
国家自然科学基金项目61070099;国家科技支撑计划项目2009BAH41B06
2013-08-25(万方平台首次上网日期,不代表论文的发表时间)
共6页
667-672