机器学习在动物基因组选择中的研究进展
万方数据知识服务平台
应用市场
我的应用
会员HOT
万方期刊
×

点击收藏,不怕下次找不到~

@万方数据
会员HOT

期刊专题

10.3864/j.issn.0578-1752.2023.18.015

机器学习在动物基因组选择中的研究进展

引用
基因组选择是指利用覆盖在全基因组范围内的分子标记信息来估计个体育种值.利用基因组信息能够避免因系谱错误带来的诸多问题,提高选择准确性并缩短育种世代间隔.根据统计模型的不同,基因组选择方法可大致分为基于BLUP(best linear unbiased prediction,BLUP)理论的方法、基于贝叶斯理论的方法和其他方法.目前应用较多的是GBLUP及其改进方法ssGBLUP.准确性是基因组选择模型最常用的评价指标,用来衡量真实值和估计值之间的相似程度.影响准确性的因素可以从模型中体现,大致分为可控因素和不可控因素.传统基因组选择方法促进了动物育种的快速发展,但这些方法目前都面临着多群体、多组学和计算等诸多挑战,不能捕获基因组高维数据间的非线性关系.作为人工智能的一个分支,机器学习是最贴近生物掌握自然语言处理能力的一种方式.机器学习从数据中提取特征并自动总结规律,利用该规律与新数据进行预测.对于基因组信息,机器学习无需进行分布假设,且所有的标记信息都能够被考虑进模型当中.相比于传统的基因组选择方法,机器学习更容易捕获基因型之间、表型与环境之间的复杂关系.因此,机器学习在动物基因组选择中具有一定的优势.根据训练期间接受的监督数量和监督类型,机器学习可分为监督学习、无监督学习、半监督学习和强化学习等.它们的主要区别为输入的数据是否带有标签.目前在动物基因组选择中应用的机器学习方法均为监督学习.监督学习可以处理分类和回归问题,需要向算法提供有标签的数据和所需的输出.近年来机器学习在动物基因组选择中的应用不断增多,特别是在奶牛和肉牛中发展较快.本文将机器学习算法划分为单个算法、集成算法和深度学习 3 类,综述其在动物基因组选择中的研究进展.单个算法中最常用的是KRR和SVR,两者都是通过核技巧来学习非线性函数,在原始空间中将数据映射到更高维的核空间.目前常用的核函数有线性核、余弦核、高斯核和多项式核等.深度学习又称为深度神经网络,由连接神经元的多个层组成.集成学习算法则是指将不同的学习器融合在一起进而得到一个较强的监督模型.近十年来,有关机器学习和深度学习的相关文献呈现了指数型的增长,在基因组选择方面的应用也在逐渐增多.尽管机器学习在某些方面存在明显的优势,但其在估计动物复杂性状基因组育种值时仍面临诸多挑战.部分模型的可解释性低,不利于数据、参数和特征的调整.数据的异质性、稀疏性和异常值也会造成机器学习的数据噪声.还有过拟合、大标记小样本和调参等问题.因此,在训练模型时需要谨慎处理每一个步骤.文章介绍了基因组选择传统方法及其面临的问题、机器学习的概念和分类,探讨了机器学习在动物基因组选择中的研究进展及目前存在的挑战,并给出了一个案例和一些应用的建议,以期为机器学习在动物基因组选择当中的应用提供一定参考.

机器学习、深度学习、基因组选择、动物育种

56

TP391;TP18;S823.2

国家自然科学基金;国家重点研发计划;中国农业科学院科技创新工程;国家生猪产业技术体系项目

2023-10-30(万方平台首次上网日期,不代表论文的发表时间)

共11页

3682-3692

相关文献
评论
暂无封面信息
查看本期封面目录

中国农业科学

0578-1752

11-1328/S

56

2023,56(18)

相关作者
相关机构

专业内容知识聚合服务平台

国家重点研发计划“现代服务业共性关键技术研发及应用示范”重点专项“4.8专业内容知识聚合服务技术研发与创新服务示范”

国家重点研发计划资助 课题编号:2019YFB1406304
National Key R&D Program of China Grant No. 2019YFB1406304

©天津万方数据有限公司 津ICP备20003920号-1

信息网络传播视听节目许可证 许可证号:0108284

网络出版服务许可证:(总)网出证(京)字096号

违法和不良信息举报电话:4000115888    举报邮箱:problem@wanfangdata.com.cn

举报专区:https://www.12377.cn/

客服邮箱:op@wanfangdata.com.cn