DOI：10.3969/j.issn.1000.3842.2011.11.013

基于Hadoop的Web日志挖掘

引用

摘要：

基于单一节点的数据挖掘系统在挖掘Web海量数据源时存在计算瓶颈,针对该问题,利用云计算的分布式处理和虚拟化技术的优势,设计一种基于云计算的Hadoop集群框架的Web日志分析平台,提出一种能够在云计算环境中进行分布式处理的混合算法.为进一步验证该平台的高效性,在该平台上利用改进后的算法挖掘Web日志中用户的偏爱访问路径.实验结果表明,在集群中运用分布式算法处理大量的Web日志文件,可以明显提高Web数据挖掘的效率.

关键词：云计算、Hadoop架构、Map/Reduce编程模式、Web日志挖掘、遗传算法、偏爱访问路径

所属期刊栏目：37

分类号：TP311(计算技术、计算机技术)

资助基金：博士点基金资助项目200803580024;创新研究群体科学基金资助项目70821001

在线出版日期：2011-08-23（万方平台首次上网日期，不代表论文的发表时间）

页数：共3页

页码：37-39

英文信息展示

期刊专题