基于改进HDFS的冠字号小文件分布式存储研究
针对冠字号小图片存储到HDFS系统中带来的访问瓶颈问题,改进了原有的HDFS系统,新提出的分布式系统机制是充分基于文件相关性(File Correlation)进行合并处理的HDFS(FCHDFS)。由于HDFS中所有的文件都是由单一的主节点服务器托管-NameNode,每个存储到HDFS的文件在NameNode主存储器中都需要存储它的元数据,这必然导致小文件数量越大HDFS性能就越差。存储和管理大量的小文件,对NameNode是一个沉重的负担。可以存储在HDFS的文件数量是受到NameNode的内存大小约束。为了提高存储和访问HDFS上的冠字号小文件的效率,该文提出了一个基于文件关联性的小文件高效处理机制。在这种方法中,按照客户和时间区分,一组相关的文件相结合为一个大文件,从而减少文件数目。而新建的索引机制能从相应的联合文件中访问单个文件。实验结果表明,FCHDFS大大减少主节点内存中元数据数量,也提高了存储和访问大量小文件的效率。
Hadoop、小文件、HDFS、文件合并
TP18(自动化基础理论)
该课题得到国家863计划重大项目智能云服务与管理平台核心软件及系统2013AA01A212;国家科技支撑计划课题电子信息产业集群质量保障服务平台应用示范2012BAH27F05;广东省自然基金团队研究项目云计算核心技术及云服务应用研究S2012030006242
2014-07-15(万方平台首次上网日期,不代表论文的发表时间)
共6页
3980-3985