10.3969/j.issn.1560-8999.2017.05.003
地学数据共享网用户Web行为预测及数据推荐方法
网络环境下,如何让用户快速发现所需数据是地学数据共享平台长期面临的挑战之一.本文基于国家地球系统科学数据共享平台网站服务器日志数据获取用户搜索行为及数据集访问行为,使用聚类算法挖掘用户行为模式,并基于会话聚类模式开发在线搜索和访问预测算法.在数据预处理阶段,对原始服务器日志数据进行清洗、用户识别、用户会话识别、搜索词提取.在模式挖掘阶段,采用DBSCAN算法对会话进行聚类.考虑到会话向量值的二元性,聚类算法中的距离采用Jaccard距离函数计算.视每个会话聚类包含的搜索词集合为一个文本,所有用户历史搜索词集合为语料库,统计各聚类中搜索词的TF-IDF值.在线搜索推荐,以搜索词检索各聚类中TF-IDF值,返回TF-IDF值最高的搜索词所属聚类,并给出该聚类的高频项目作为推荐.在线访问推荐,则以用户实时访问向量为查询向量,计算该向量与聚类中心的聚类.根据聚类排序,给出距离最近的聚类,并产生该聚类中高频项目作为推荐.实验结果表明基于TF-IDF和聚类的搜索推荐有较高的准确率和召回率,访问推荐效果基于高频统计的推荐有较大提高.研究可得出以下结论:①地学共享网用户访问和搜索行为体现了专业性的特点,其行为较普通网站用户可预测性更好;②对于地学数据共享用户行为预测,需明确定义用户行为,并采用合适的距离函数描述行为相似性;③通过搜索词TF-IDF值来预测用户数据需求的方法可行,以此产生的推荐可作为搜索结果的补充.本研究可服务于地学领域数据共享平台建设,提高共享服务质量,也可为其他领域科学数据共享提供技术方法借鉴.
网络数据挖掘、用户行为预测、用户行为模式、科学数据共享、地球系统科学数据
19
TP3;P20
国家科技基础条件平台——地球系统科学数据共享平台2005DKA32300;中国科学院特色研究所培育建设服务项目TSYJS03;中国工程科技知识中心建设项目CKCEST-2016-3-7
2017-06-30(万方平台首次上网日期,不代表论文的发表时间)
共10页
595-604