基于k-mer词频向量的九种DNA序列相似性计算方法比较分析
万方数据知识服务平台
应用市场
我的应用
会员HOT
万方期刊
×

点击收藏,不怕下次找不到~

@万方数据
会员HOT

期刊专题

10.3969/j.issn.1673-1328.2023.21.027

基于k-mer词频向量的九种DNA序列相似性计算方法比较分析

引用
序列相似性计算是生物序列分析的前提和基础,传统的序列相似性分析方法需要借助双序列比对,如Needleman-Wunsch(NW)序列比对算法.面对海量序列数据,基于序列比对的相似性计算方法具有较高的时间复杂度.为快速得到序列间相似性,可以通过提取序列k-mer信息,利用序列k-mer词频向量进行计算.本文从序列k-mer词频向量提取及基于k-mer词频向量的九种相似性计算方法进行了详细介绍,并用两种数据集进行了比较分析.实验结果表明,基于k-mer词频相似性计算方法比标准NW算法速度至少快103倍,但不同的k-mer词频计算方法得到的相似性与标准NW算法差别较大,相对而言,欧式距离在两个数据集的相似性结果与NW方法更接近,在计算大规模序列相似性时,可以作为优先选择的方法.

非序列对比、k-mer词频、Needleman-Wunsch算法、序列相似性

Q811(生物工程学(生物技术))

宝鸡文理学院第十六批校级教学改革研究项目;陕西省自然科学基础研究计划一般项目;宝鸡文理学院研究生创新科研项目;宝鸡文理学院第十七批校级本科教学改革研究项目

2023-09-07(万方平台首次上网日期,不代表论文的发表时间)

共6页

106-111

相关文献
评论
暂无封面信息
查看本期封面目录

科学技术创新

2096-4390

23-1600/N

2023,(21)

相关作者
相关机构

专业内容知识聚合服务平台

国家重点研发计划“现代服务业共性关键技术研发及应用示范”重点专项“4.8专业内容知识聚合服务技术研发与创新服务示范”

国家重点研发计划资助 课题编号:2019YFB1406304
National Key R&D Program of China Grant No. 2019YFB1406304

©天津万方数据有限公司 津ICP备20003920号-1

信息网络传播视听节目许可证 许可证号:0108284

网络出版服务许可证:(总)网出证(京)字096号

违法和不良信息举报电话:4000115888    举报邮箱:problem@wanfangdata.com.cn

举报专区:https://www.12377.cn/

客服邮箱:op@wanfangdata.com.cn