10.3969/j.issn.1003-0077.2018.07.011
生物医学文献中的蛋白质关系抽取研究
蛋白质关系抽取研究对于生命科学各领域的研究具有广泛的应用价值.但是,基于机器学习的蛋白质关系抽取方法普遍停留在二元关系抽取,失去了丰富的关系类型信息,而基于规则的开放式信息抽取方法可以抽取完整的蛋白质关系("蛋白质1,关系词,蛋白质2"),但是召回率较低.针对以上问题,该文提出了一种混合机器学习和规则方法的蛋白质关系抽取框架.该框架先利用机器学习方法完成命名实体识别和二元关系抽取,然后利用基于句法模板和词典匹配的方法抽取表示当前两个蛋白质间关系类型的关系词.该方法在AImed语料上取得了40.18% 的F值,远高于基于规则的Stanford Open IE方法.
关系词抽取、蛋白质实体识别、蛋白质关系抽取
32
TP391(计算技术、计算机技术)
国家重点研发计划项目2016YFC0901902;国家自然科学基金61572102 ,61572098 ,61272373;教育部跨世纪优秀人才培养计划NCET-13-0084;引进人才科研专题DUT18RC3004
2018-08-28(万方平台首次上网日期,不代表论文的发表时间)
共9页
82-90