Web日志挖掘中的会话识别算法

引用

摘要：

会话识别是Web日志挖掘的关键步骤,然而很多方法所得到的会话不够精确.针对Web日志挖掘中的会话识别问题,在最常用的Timeout方法的基础上,提出了一种改进的基于平均时间阈值的识别方法.通过动态计算会话中请求记录间的平均时间间隔,个性化地调整页面的时间阈值,相对于传统的对所有用户页面使用单一的先验阈值,该方法能够更准确地识别出长对话.最后对生成的侯选会话集进行二次识别,使识别出的会话更为合理有效.实验结果表明,会话质量得到了提高.

关键词：Web挖掘、数据预处理、会话识别、时间阈值

所属期刊栏目：30

分类号：TP311;TP393(计算技术、计算机技术)

资助基金：浙江省教育厅科研计划基金项目20060599;浙江理工大学科学基金项目111251A4Y04002

在线出版日期：2009-05-12（万方平台首次上网日期，不代表论文的发表时间）

页数：共4页

页码：1321-1323,1390

英文信息展示

期刊专题