批量下载GenBank基因序列数据的新工具——NCBIminer
核苷酸序列是生物体遗传信息的载体,是现代生物学和生态学的基础数据.随着测序技术的进步,大量核苷酸序列被提取并存储在公共数据平台中,其中GenBank(http://www.ncbi.nlm.nih.gov/genbank/)是目前最大的核苷酸序列数据平台之一.截至2015年2月,该平台收录核苷酸序列总数己超过1.8亿条、覆盖全球超过30万个物种.但如何从如此海量的数据中准确、快速查找并下载所需数据己成为限制基因数据广泛使用的障碍之一.为此,我们开发了一款可高效、准确下载GenBank数据的生物信息学软件NCBIminer.NCBIminer可根据用户提供的核苷酸序列名称、数据类型、一或多条初始化参考序列,查找并下载用户指定的多个物种或类群的特定基因序列数据.该软件下载地址为https://github.com/greengirl/NCBIminer/releases/,可在Windows、Linux和MAC操作系统下免费使用;同时,其操作简单,用户无需生物信息学背景.为方便该软件的使用,本文将介绍该软件的工作流程与算法、安装及使用过程中的参数设置等.
GenBank、生物信息学、基因序列、系统进化、DNA、核苷酸序列
23
国家自然科学基金31470564,31400467,31321061和中国博士后科学基金2014M550555
2015-08-31(万方平台首次上网日期,不代表论文的发表时间)
550-555