10.3969/j.issn.1000-3428.2016.05.010
基于Hadoop的微阵列数据两阶段并行K近邻基因提取
基因信息选取工作中由于数据量庞大,传统单线程运行的分类查询方法无法满足实时性与提取精度要求.为此,利用Hadoop框架设计两阶段并行计算模型.其中第1阶段用于候选基因子集并行选取,第2阶段用于并行K近邻基因信息选取,从而实现并行计算的全过程覆盖.为降低算法的计算复杂度,针对基因信息微阵列数据,定义数据筛选指标对其进行采样,在降低数据处理量的同时消除数据冗余.实验结果表明,该算法具有较高的运行效率,并且继承了Hadoop编程模型的可扩展特性,可移植性较强.
Hadoop框架、并行计算、微阵列采样、大数据、K近邻、基因信息
42
TP18(自动化基础理论)
辽宁省教育厅基金资助项目L2012113
2016-07-13(万方平台首次上网日期,不代表论文的发表时间)
共6页
54-59