10.3969/j.issn.1672-6944.2018.09.022
Hadoop实现点击流日志的数据清洗
在Hadoop云计算的大数据应用中,点击日志数据的挖掘处理是一项重要工作,日志收集服务器每天上传大量的点击日志信息,这些点击日志信息是从事电子商务企业了解用户心理倾向的关键信息,日志分析和挖掘对于企业越来越重要,直接和企业的发展和效益密不可分.对于结构化的日志,Hadoop Hive的HQL即可实现日志的数据清洗,而对于非结构化的点击流日志,HQL就显得捉襟见肘,文章就使用MapReduce实现点击日志信息的数据清洗处理进行简述,同时列举了实例供大家参考.
HiveQL、数据库、MapReduce、粒度管理器
15
2018-06-19(万方平台首次上网日期,不代表论文的发表时间)
共3页
51-53