Web日志挖掘中的会话识别算法
会话识别是Web日志挖掘的关键步骤,然而很多方法所得到的会话不够精确.针对Web日志挖掘中的会话识别问题,在最常用的Timeout方法的基础上,提出了一种改进的基于平均时间阈值的识别方法.通过动态计算会话中请求记录间的平均时间间隔,个性化地调整页面的时间阈值,相对于传统的对所有用户页面使用单一的先验阈值,该方法能够更准确地识别出长对话.最后对生成的侯选会话集进行二次识别,使识别出的会话更为合理有效.实验结果表明,会话质量得到了提高.
Web挖掘、数据预处理、会话识别、时间阈值
30
TP311;TP393(计算技术、计算机技术)
浙江省教育厅科研计划基金项目20060599;浙江理工大学科学基金项目111251A4Y04002
2009-05-12(万方平台首次上网日期,不代表论文的发表时间)
共4页
1321-1323,1390