10.3969/j.issn.1673-629X.2018.04.004
基于交叉预测的蛋白质交互识别
目前,基于远监督的蛋白质交互关系抽取方法通过将知识库中的实体对与文本中的实体进行匹配来产生大规模的训练数据,有效地解决了标注数据不足的问题.然而,通过远监督产生的训练数据存在大量的噪音,因此文中提出了一种交叉预测的方法来清除训练数据中的噪音.首先将训练数据随机分为k组,取1组数据作为预测集,其余k-1组数据作为训练集,依次轮换训练集和预测集k次,每组数据都利用其余k-1组数据训练得到的模型来预测并去噪;然后将去噪后的数据重新组合得到新的训练数据,并用去噪前和去噪后的训练数据分别进行训练得到模型;最后用人工标注的语料分别对这两个模型进行测试.实验结果证明,交叉预测的方法可以有效识别出训练数据中的噪音,从而提高蛋白质交互关系的识别效果.
蛋白质交互、远监督、交叉预测、去噪
28
TP301(计算技术、计算机技术)
国家自然科学基金61202132
2018-05-11(万方平台首次上网日期,不代表论文的发表时间)
共4页
17-20