基于编辑距离的Web数据挖掘

引用

摘要：

Div+ CSS流行于Web页面的布局,在这种布局下,网页中很多数据记录以重复结构的形式聚集在一个层级.为了更好地从网页中挖掘数据,提出了一种新的Web数据挖掘算法,把树编辑距离转化为字符串编辑距离的计算,改进字符串编辑距离算法,利用字符串编辑距离评价树的相似度,进而找到网页中的重复模式,提取数据.通过针对不同重复模式特征的网页的实验说明,基于编辑距离的Web数据挖掘算法不仅能提取具有根节点及上面几层相同的网页的数据,对具有底层节点相同的网页也是有效的.

关键词：Web数据挖掘、编辑距离、字符串编辑距离、树编辑距离

所属期刊栏目：32

分类号：TP393.09(计算技术、计算机技术)

资助基金：上海市信息安全综合管理技术研究重点实验室开放课题资助项目AGK2009008

在线出版日期：2012-07-25（万方平台首次上网日期，不代表论文的发表时间）

页数：共4页

页码：1662-1665

英文信息展示

期刊专题