DOI：10.3969/j.issn.1673-1328.2023.21.027

基于k-mer词频向量的九种DNA序列相似性计算方法比较分析

引用

摘要：

序列相似性计算是生物序列分析的前提和基础,传统的序列相似性分析方法需要借助双序列比对,如Needleman-Wunsch(NW)序列比对算法.面对海量序列数据,基于序列比对的相似性计算方法具有较高的时间复杂度.为快速得到序列间相似性,可以通过提取序列k-mer信息,利用序列k-mer词频向量进行计算.本文从序列k-mer词频向量提取及基于k-mer词频向量的九种相似性计算方法进行了详细介绍,并用两种数据集进行了比较分析.实验结果表明,基于k-mer词频相似性计算方法比标准NW算法速度至少快103倍,但不同的k-mer词频计算方法得到的相似性与标准NW算法差别较大,相对而言,欧式距离在两个数据集的相似性结果与NW方法更接近,在计算大规模序列相似性时,可以作为优先选择的方法.

关键词：非序列对比、k-mer词频、Needleman-Wunsch算法、序列相似性

分类号：Q811(生物工程学(生物技术))

资助基金：宝鸡文理学院第十六批校级教学改革研究项目;陕西省自然科学基础研究计划一般项目;宝鸡文理学院研究生创新科研项目;宝鸡文理学院第十七批校级本科教学改革研究项目

在线出版日期：2023-09-07（万方平台首次上网日期，不代表论文的发表时间）

页数：共6页

页码：106-111

英文信息展示

期刊专题