10.3969/j.issn.1003-3254.2009.04.006
基于网站日志挖掘的频繁遍历主干子网发现
WWW上用户的访问路径信息会被记录在WEB服务器的日志记录中,分析这些日志并挖掘出用户的主要行为模式,可以提取出WEB网站被频繁访问的主干部分.本文首先将原始日志信息整理成目标页前向访问路径集TUPD(Target Pages User Forward Access Path Dataset).然后在TUPD上生成加权网站结构多维树WWSSMT(Weighted Web Site Structure MUIti-Tree),最后引入决策频度阀值S,删除所有WWSSMT中weight<S的子结点分支,最终实现了此WEB站点的频繁访问主干子网的发现.实验证明,挖掘获得的主干子网包含了某电子商务网站的最主要热销产品.
Web日志、目标页前向访问路径集、加权网站结构多维树、主干子网、访问模式
18
TP3;TP1
国家973计划项目2005CB321904
2009-05-22(万方平台首次上网日期,不代表论文的发表时间)
共4页
22-25