基于编辑距离的Web数据挖掘
Div+ CSS流行于Web页面的布局,在这种布局下,网页中很多数据记录以重复结构的形式聚集在一个层级.为了更好地从网页中挖掘数据,提出了一种新的Web数据挖掘算法,把树编辑距离转化为字符串编辑距离的计算,改进字符串编辑距离算法,利用字符串编辑距离评价树的相似度,进而找到网页中的重复模式,提取数据.通过针对不同重复模式特征的网页的实验说明,基于编辑距离的Web数据挖掘算法不仅能提取具有根节点及上面几层相同的网页的数据,对具有底层节点相同的网页也是有效的.
Web数据挖掘、编辑距离、字符串编辑距离、树编辑距离
32
TP393.09(计算技术、计算机技术)
上海市信息安全综合管理技术研究重点实验室开放课题资助项目AGK2009008
2012-07-25(万方平台首次上网日期,不代表论文的发表时间)
共4页
1662-1665