DOI：10.3969/j.issn.1006-9348.2020.02.048

基于Spark的基因短序列比对模型

引用

摘要：

针对生物信息分析中基因短序列比对任务计算耗时长的问题,采用Spark平台、RDD数据集以及分布式文件系统HDFS设计了一种分布式计算模型.采用分而治之的策略将庞大的计算任务分割为多个互不重叠的小任务在分布式集群上并行执行.通过基于位置偏移量等分的数据分区算法实现数据的分发;通过将基因短序列封装入RDD数据集的方法实现了短序列的逐条处理;通过将基因比对算法传入RDD的Map函数的方法实现了基因序列的比对.计算模型的实现使得串行比对算法在分布式集群上可扩展,并显著降低了计算耗时,计算结果可与后续的生物信息分析工作相兼容.实验结果证明计算模型具有较好的稳定性和可扩展性,在Spark集群上取得了优秀的加速比.

关键词：基因序列比对、短序列映射、分布式计算、并行计算

所属期刊栏目：37

分类号：TP391(计算技术、计算机技术)

资助基金：国家自然科学基金61462070

在线出版日期：2020-05-11（万方平台首次上网日期，不代表论文的发表时间）

页数：共6页

页码：231-236

英文信息展示

期刊专题