地学数据共享网用户Web行为预测及数据推荐方法
万方数据知识服务平台
应用市场
我的应用
会员HOT
万方期刊
×

点击收藏,不怕下次找不到~

@万方数据
会员HOT

期刊专题

10.3969/j.issn.1560-8999.2017.05.003

地学数据共享网用户Web行为预测及数据推荐方法

引用
网络环境下,如何让用户快速发现所需数据是地学数据共享平台长期面临的挑战之一.本文基于国家地球系统科学数据共享平台网站服务器日志数据获取用户搜索行为及数据集访问行为,使用聚类算法挖掘用户行为模式,并基于会话聚类模式开发在线搜索和访问预测算法.在数据预处理阶段,对原始服务器日志数据进行清洗、用户识别、用户会话识别、搜索词提取.在模式挖掘阶段,采用DBSCAN算法对会话进行聚类.考虑到会话向量值的二元性,聚类算法中的距离采用Jaccard距离函数计算.视每个会话聚类包含的搜索词集合为一个文本,所有用户历史搜索词集合为语料库,统计各聚类中搜索词的TF-IDF值.在线搜索推荐,以搜索词检索各聚类中TF-IDF值,返回TF-IDF值最高的搜索词所属聚类,并给出该聚类的高频项目作为推荐.在线访问推荐,则以用户实时访问向量为查询向量,计算该向量与聚类中心的聚类.根据聚类排序,给出距离最近的聚类,并产生该聚类中高频项目作为推荐.实验结果表明基于TF-IDF和聚类的搜索推荐有较高的准确率和召回率,访问推荐效果基于高频统计的推荐有较大提高.研究可得出以下结论:①地学共享网用户访问和搜索行为体现了专业性的特点,其行为较普通网站用户可预测性更好;②对于地学数据共享用户行为预测,需明确定义用户行为,并采用合适的距离函数描述行为相似性;③通过搜索词TF-IDF值来预测用户数据需求的方法可行,以此产生的推荐可作为搜索结果的补充.本研究可服务于地学领域数据共享平台建设,提高共享服务质量,也可为其他领域科学数据共享提供技术方法借鉴.

网络数据挖掘、用户行为预测、用户行为模式、科学数据共享、地球系统科学数据

19

TP3;P20

国家科技基础条件平台——地球系统科学数据共享平台2005DKA32300;中国科学院特色研究所培育建设服务项目TSYJS03;中国工程科技知识中心建设项目CKCEST-2016-3-7

2017-06-30(万方平台首次上网日期,不代表论文的发表时间)

共10页

595-604

相关文献
评论
暂无封面信息
查看本期封面目录

地球信息科学学报

1560-8999

11-5809/P

19

2017,19(5)

相关作者
相关机构

专业内容知识聚合服务平台

国家重点研发计划“现代服务业共性关键技术研发及应用示范”重点专项“4.8专业内容知识聚合服务技术研发与创新服务示范”

国家重点研发计划资助 课题编号:2019YFB1406304
National Key R&D Program of China Grant No. 2019YFB1406304

©天津万方数据有限公司 津ICP备20003920号-1

信息网络传播视听节目许可证 许可证号:0108284

网络出版服务许可证:(总)网出证(京)字096号

违法和不良信息举报电话:4000115888    举报邮箱:problem@wanfangdata.com.cn

举报专区:https://www.12377.cn/

客服邮箱:op@wanfangdata.com.cn