10.3969/j.issn.0258-8021.2008.01.013
Oligo基因芯片的异常值处理对有监督疾病分类的影响
基因芯片实验产生的表达谱数据中存在大量不合格的检测点,对异常值的不同处理,对于有监督疾病分类结果的影响很大.针对此问题,在Oligo芯片数据中,在表达水平层面,通常对检测值做最大值和最小值的预处理后,进行后续分析.本研究选取了四套Oligo芯片数据集,采用不同限定芯片数据中最大值和最小值的方法,考察支持向量机、K近邻、决策树三种分类器对分类疾病样本效能的影响程度.结果 显示:Dudoit等限定最大值和最小值分别为16000和100是一种合理的策略,可以达到很好的分类效果.同时发现对于小于100的检测值较多的数据集,采用限定最小值为10的策略同样能得到很好的分类效果,并可以为后续分析保留更多的原始数据.因此,合理限制Oligo芯片中的异常值,对于提高疾病分型是一种较好的策略.进一步采用功能表达谱方法,构造反映功能结点中全部注释基因的总体表达状态的均值或中值指标,利用构建的功能表达谱进行分类分析.发现不同异常值的限定方法对基于功能表达谱进行分类得到的准确率的影响较小,可以获得较稳定的分类结果.
基因表达谱、异常值分类、功能表达谱
27
R318.08(医用一般科学)
国家自然科学基金39970397;30170515;30370388;国家高技术研究发展计划863计划2003AA222051;2002AA222052;哈尔滨医科大学校科研和教改项目
2008-06-03(万方平台首次上网日期,不代表论文的发表时间)
共7页
69-75