基于序列前缀技术的XML频繁路径挖掘算法

引用

摘要：

XML文档是半结构化数据,对其进行频繁路径挖掘可以分为两步:XML文档序列化和序列挖掘阶段.现有的序列化方式将XML文档表示为Xpath路径集合,其中有大量的节点冗余;序列挖掘阶段采用的类Apriori算法需要多次扫描数据库并产生大量的候选集,采用的PrefixSpan算法会产生大量的投影数据库,占用较大的内存.针对以往XML频繁路径挖掘算法存在的不足,本文提出一种高效的挖掘算法——基于序列前缀技术的XML频繁路径挖掘算法(PXFP,Prefix-based XML Frequent Path Mining Algorithm).PXFP算法以广度优先方式遍历XML文档树并将每个节点表示为"节点:父节点"的形式,这种序列化的方式减少了节点冗余.在序列挖掘阶段借鉴PrefixSpan算法中前缀的概念,但不产生投影数据库,仅得到直接后缀(即前缀的子节点),通过记录频繁子路径的位置信息逐渐扩大频繁模式的长度,位置信息的引入减少了对数据库的扫描.实验结果表明,PXFP算法取得了比PrefixSpan算法更高的时间和空间效率.

关键词：XML频繁路径挖掘、序列化、位置信息、前缀

所属期刊栏目：27

分类号：TP3;TP2

资助基金：国家自然科学基金61273293

在线出版日期：2018-01-23（万方平台首次上网日期，不代表论文的发表时间）

页数：共8页

页码：78-85

英文信息展示

期刊专题