DOI：10.3969/j.issn.1674-7259.2003.12.007

基于类别空间的基因选择

引用

摘要：

基因选择通常是在基因空间中进行的. 由于基因空间的维数(基因数目)比该空间中的样本数要多得多, 这种做法存在严重的维数发难(curse of dimensionality)问题, 其结果是在基因空间中所建立数据模型难于获得满意的精度, 基于所建立模型的基因选择结果可信度低. 如何对具有极少样本的极高维空间进行特征选择(基因选择)是一个极具挑战性的课题. 将基因空间变换为它的对偶空间, 称为类别空间, 从而空间的维数仅为基因空间中样本的类别数, 空间中的样本数则为基因空间的维数. 显然, 在类别空间中不存在任何维数发难现象; 提出了在类别空间中基于将不同的类尽可能分开的原则、并借助主分量分析的基于类别空间基因选择方法. 对真实基因数据的基因选择实验, 并通过Fisher指标、加权Fisher指标以及leave-one-out cross validation等可分性指标, 与其他两种基因选择方法进行了深入的比较, 结果表明该方法是十分有效的.

关键词：特征空间(基因空间)、类别空间、特征选择(基因选择)、主分量分析

所属期刊栏目：33

分类号：Q78(基因工程（遗传工程）)

资助基金：美国国家健康研究院NIH/;美国国家癌症研究所科研项目5R21CA83231;国防科技预研基金00J1.4.4.DZ0106;教育部重点实验室基金TKLJ0005

在线出版日期：2004-02-13（万方平台首次上网日期，不代表论文的发表时间）

页数：共13页

页码：1125-1137

期刊专题