10.3969/j.issn.1671-7449.2009.03.013
改进的基于 Web 的频繁访问路径挖掘算法
对于连续频繁访问路径的挖掘如果采用常见的序列模式挖掘算法, 挖掘效率是比较低的, 而且只能得到频繁访问路径. 本文在研究访问路径性质的基础上给出了一种能从普通 Web 日志中挖掘出连续频繁访问路径的算法. 设计了一种新颖的数据结构压缩存储空间及存储所需挖掘信息. 同时采用分区搜索的方式, 为每个频繁节点构造一棵后缀树, 通过遍历该后缀树挖掘出连续频繁访问路径. 采用这种方法进行挖掘, 无需生成候选集, 而且一次就可以挖掘出所有以根节点为后缀的连续频繁访问路径.
连续频繁访问路径、网络服务器日志、分区搜索、后缀树、频繁节点
23
TP274(自动化技术及设备)
2009-06-19(万方平台首次上网日期,不代表论文的发表时间)
共4页
244-247