10.3969/j.issn.1000.3842.2011.11.013
基于Hadoop的Web日志挖掘
基于单一节点的数据挖掘系统在挖掘Web海量数据源时存在计算瓶颈,针对该问题,利用云计算的分布式处理和虚拟化技术的优势,设计一种基于云计算的Hadoop集群框架的Web日志分析平台,提出一种能够在云计算环境中进行分布式处理的混合算法.为进一步验证该平台的高效性,在该平台上利用改进后的算法挖掘Web日志中用户的偏爱访问路径.实验结果表明,在集群中运用分布式算法处理大量的Web日志文件,可以明显提高Web数据挖掘的效率.
云计算、Hadoop架构、Map/Reduce编程模式、Web日志挖掘、遗传算法、偏爱访问路径
37
TP311(计算技术、计算机技术)
博士点基金资助项目200803580024;创新研究群体科学基金资助项目70821001
2011-08-23(万方平台首次上网日期,不代表论文的发表时间)
共3页
37-39