10.3969/j.issn.1003-3114.2014.01.016
基于Hadoop云计算平台的海量文本处理研究
针对海量文本数据处理,为实现快速文本处理响应,缩短海量数据为辅助决策提供服务的时间,基于Hadoop云计算平台,建立HDFS分布式文件系统存储海量文本数据集,通过文本词频利用MapReduce原理建立分布式索引,以分布式数据库HBase存储关键词索引,并提供实时检索,实现对海量文本数据的分布式并行处理.实验结果表明,Hadoop框架为大规模数据的分布式并行处理提供了很好的解决方案.
海量文本处理、Hadoop、HDFS、HBase、MapReduce、分布式并行处理
40
TP319(计算技术、计算机技术)
国家部委基金
2014-03-20(万方平台首次上网日期,不代表论文的发表时间)
共4页
54-57