DOI：10.3969/j.issn.1000-3428.2016.05.010

基于Hadoop的微阵列数据两阶段并行K近邻基因提取

引用

摘要：

基因信息选取工作中由于数据量庞大,传统单线程运行的分类查询方法无法满足实时性与提取精度要求.为此,利用Hadoop框架设计两阶段并行计算模型.其中第1阶段用于候选基因子集并行选取,第2阶段用于并行K近邻基因信息选取,从而实现并行计算的全过程覆盖.为降低算法的计算复杂度,针对基因信息微阵列数据,定义数据筛选指标对其进行采样,在降低数据处理量的同时消除数据冗余.实验结果表明,该算法具有较高的运行效率,并且继承了Hadoop编程模型的可扩展特性,可移植性较强.

关键词：Hadoop框架、并行计算、微阵列采样、大数据、K近邻、基因信息

所属期刊栏目：42

分类号：TP18(自动化基础理论)

资助基金：辽宁省教育厅基金资助项目L2012113

在线出版日期：2016-07-13（万方平台首次上网日期，不代表论文的发表时间）

页数：共6页

页码：54-59

英文信息展示

期刊专题