10.3969/j.issn.1672-5565.2009.03.009
不同压缩程序对海量生物信息数据压缩效率的比较分析
海量生物信息数据的不断涌现迫切需要在数据压缩技术方面进行更多研究,以减轻服务器存储压力和提高网络传输及数据分析的效率.目前虽然已开发出大量数据压缩软件,但对于海量生物信息数据而言,应该选用何种软件和方法进行数据压缩,尚缺乏详细的综合比较分析.本文选择生物信息学领域中GenBank数据库中的典型核酸和蛋白质序列数据库以及典型生物信息软件Blast和EMBOSS为例,采用不同数据压缩软件进行综合比较分析,结果发现经典压缩软件compress的总体压缩效率很高,除压缩比率可接受之外,其压缩时间相对其他软件而言显著减少,甚至比并行化的bzip2(pbzip2)和gzip(pigz)软件的时间还少很多,故可优先考虑使用.7-Zip软件虽然具有最高的压缩比率,但压缩过程十分耗时,可用于数据的长期储存;而采用bzip2、rar以及gzip等软件压缩的文件,虽然压缩比率较7-Zip的偏低,但压缩过程相对而言还比较快速.具体应用中推荐使用经典压缩软件compress以及并行化运行的pbzip2和pigz软件,三者可作为同时兼顾压缩比率和压缩时间的优选.
数据压缩、压缩比率、压缩时间、压缩效率、并行计算
7
TP31(计算技术、计算机技术)
国家重点基础研究发展规划项目973计划2006CB504100, 2003CB715900;国家自然科学基金30771230, 30772293
2009-11-20(万方平台首次上网日期,不代表论文的发表时间)
共6页
196-201