10.3969/j.issn.1003-3254.2014.05.030
基于HDFS的小文件存储与读取优化策略
本文对HDFS分布式文件系统进行了深入的研究,在HDFS中以流式的方式访问大文件时效率很高但是对海量小文件的存取效率比较低。本文针对这个问题提出了一个基于关系数据库的小文件合并策略,首先为每个用户建立一个用户文件,其次当用户上传小文件时把文件的元数据信息存入到关系数据库中并将文件追加写入到用户文件中,最后用户读取小文件时通过元数据信息直接以流式方式进行读取。此外当用户读取小于一个文件块大小的文件时还采取了数据节点负载均衡策略,直接由存储数据的DataNode传送给客户端从而减轻主服务器压力提高文件传送效率。实验结果表明通过此方案很好地解决了 HDFS 对大量小文件存取支持不足的缺点,提高了 HDFS 文件系统对海量小文件的读写性能,此方案适用于具有海量小文件的云存储系统,可以降低NameNode内存消耗提高文件读写效率。
HDFS、小文件优化、文件合并、负载均衡、云存储
TP3;TN9
2014-06-25(万方平台首次上网日期,不代表论文的发表时间)
共5页
167-171