基于HTML标记用途分析的网页正文提取技术
通过分析噪音数据特点和它所产生的影响,利用HTML的结构特征,提出了一种基于区域分块的HTML元素删除法,可用于网页正文的自动提取.实验结果表明,该方法能有效地得到大多数HTML网页的主体内容部分.针对HTML文件的解析方法不仅可以用于提取HTML文件的主体文本,也可以用于得到HTML文件中其它HTML元素的内容.
HTML网页、数据挖掘、内容抽取、噪音数据、元素删除法
31
TP391(计算技术、计算机技术)
国家科技支撑计划基金项目2007BAH08B04
2011-03-28(万方平台首次上网日期,不代表论文的发表时间)
共5页
5187-5191