10.3969/j.issn.1001-3695.2017.08.019
一种面向HDFS中海量小文件的存取优化方法
为了解决HDFS(Hadoop distributed file system)在存储海量小文件时遇到的NameNode内存瓶颈等问题,提高HDFS处理海量小文件的效率,提出一种基于小文件合并与预取的存取优化方案.首先通过分析大量小文件历史访问日志,得到小文件之间的关联关系,然后根据文件相关性将相关联的小文件合并成大文件后再存储到HDFS.从HDFS中读取数据时,根据文件之间的相关性,对接下来用户最有可能访问的文件进行预取,减少了客户端对NameNode节点的访问次数,提高了文件命中率和处理速度.实验结果证明,该方法有效提升了Hadoop对小文件的存取效率,降低了NameNode节点的内存占用率.
海量小文件、文件相关性、合并、预取
34
TP391(计算技术、计算机技术)
国家自然科学基金资助项目11271057,61640211;江苏省普通高校研究生科研创新计划项目SCZ1412800004
2017-08-16(万方平台首次上网日期,不代表论文的发表时间)
共5页
2319-2323