10.3969/j.issn.1673-629X.2018.06.002
基于词向量的特征词选择
蛋白质交互信息有助于解决大量医学难题,这些信息都被记录在医学文献中,而每年的生物医学文献都在急剧增加,以手工收集信息的方式已很难满足实际的需求.在基于弱监督的蛋白质交互识别的基础上,提出了一种基于词向量的方法进行特征词选择.该方法用词向量的方式为特征词集合中的每个单词产生一个向量,从而将单词之间相似性的比较转化为单词对应向量之间的相似性比较,进而将单词聚类,再从聚类的结果中选出更能表达蛋白质交互关系的词组成新的特征词集合,以便高效、准确地进行蛋白质交互识别.使用词向量进行聚类可将相似的词归为一类,而不要求词完全相同,使得聚类结果更优.实验结果表明,该方法以五分之一的特征词取得了比未进行特征词选择更优的结果.
蛋白质交互、词向量、聚类、特征词
28
TP391(计算技术、计算机技术)
国家自然科学基金61202132
2018-07-04(万方平台首次上网日期,不代表论文的发表时间)
共5页
7-11