10.3969/j.issn.1003-3254.2012.11.041
基于MapFile的HDFS小文件存储效率问题
针对 HDFS 最初是为流式访问大文件而开发的,而对于大量小文件的存储效率不高问题,采用 MapFile设计一个HDFS中存储小文件的方案.该方案的主要思想是在上传HDFS时增加一个文件类型判断模块,建立一个小文件队列,将小文件序列化存入一个MapFile容器,合并成大文件,并建立相应的索引文件,有效降低文件数目和提高访问效率.通过和现有的Hadoop Archives(HAR files)文件归档解决小文件问题的方案对比,实验结果表明,基于MapFile的存储小文件方案可以更为有效的提高小文件存储性能和减少HDFS文件系统的节点内存消耗.
HDFS、小文件、MapFile、SequenceFile、云存储
2012-12-11(万方平台首次上网日期,不代表论文的发表时间)
共4页
179-182