基于规则模型的网页主题文本提取方法
通过对网页结构化和半结构化信息的分析,提出了一种基于规则模型的网页正文提取方法.该方法在总结HTML标签的不同应用特征和网页布局的结构特征的基础上,通过定义一系列过滤、提取和合并规则来建立一个通用的网页正文抽取模型,以达到有效提取网页主题文本的目的.实验结果表明,该方法对于各类型网页主题文本的提取均具有较高的准确卒,通用性强.
规则模型、信息抽取、主题文本提取、数据采集、Web挖掘
30
TP391(计算技术、计算机技术)
2009-12-07(万方平台首次上网日期,不代表论文的发表时间)
共3页
4665-4667