DOI：10.3969/j.issn.1000-3428.2015.07.005

基于相似性混合模型的蛋白质交互识别

引用

摘要：

现有采用机器学习方法的蛋白质交互关系识别系统仅以单句为依据,并且存在标注数据缺乏导致训练集规模小的问题.为此,基于相似性混合模型提出一种新的蛋白质交互识别方法.采用基本的关系相似性(RS)模型做初始判断,利用大规模文本计算单词特征间的相似性,在基本RS模型的基础上通过特征聚类方式引入单词相似性模型,从而建立一个混合模型.实验结果表明,该方法能够取得较高且较均衡的精确度和召回率,而单词相似性的引入又进一步提高了F值,并且其直接利用已有的交互信息,可避免额外的人工标注.

关键词：蛋白质交互、关系相似性、单词相似性、K近邻分类、层次聚类

所属期刊栏目：41

分类号：TP391(计算技术、计算机技术)

资助基金：国家自然科学基金资助项目61202132,61170043

在线出版日期：2015-09-07（万方平台首次上网日期，不代表论文的发表时间）

页数：共7页

页码：25-30,35

英文信息展示

期刊专题