DOI：10.3969/j.issn.2095-2163.2017.04.005

一种DOM树标签路径和行块密度结合的Web信息抽取方法

引用

摘要：

本文提出了一种标签路径和行块分布函数相结合的信息抽取方法来实现Web页面的信息抽取.该方法将Web页面解析成DOM树,使用视觉特征和标签过滤的规则将树进行剪枝,引入标签路径特征的方法粗略划分出网页的正文内容和噪音内容,最终使用行块分布函数的方法进行抽取,获得正文文本.实验结果表明,这种抽取方法有效地防止了正文内容误删及噪音内容漏删的现象,使得提取的正文信息更加准确,准确度达到91％,召回率达到95％,F值达到93％.本算法对于包含过多短文本的网页抽取的准确度还有待提高.

关键词：DOM树、视觉特征、标签路径特征、行块分布函数

所属期刊栏目：7

分类号：TP391(计算技术、计算机技术)

资助基金：山西大学商务学院2016年科研基金2016008

在线出版日期：2017-09-14（万方平台首次上网日期，不代表论文的发表时间）

页数：共5页

页码：13-16,20

英文信息展示

期刊专题