10.3969/j.issn.1003-0077.2014.05.007
基于Word Embedding语义相似度的字母缩略术语消歧
该文提出基于Word Embedding的歧义词多个义项语义表示方法,实现基于知识库的无监督字母缩略术语消歧.方法分两步聚类,首先采用显著相似聚类获得高置信度类簇,构造带有语义标签的文档集作为训练数据.利用该数据训练多份Word Embedding模型,以余弦相似度均值表示两个词之间的语义关系.在第二步聚类时,提出使用特征词扩展和语义线性加权来提高歧义分辨能力,提高消歧性能.该方法根据语义相似度扩展待消歧文档的特征词集合,挖掘聚类文档中缺失的语义信息,并使用语义相似度对特征词权重进行线性加权.针对25个多义缩略术语的消歧实验显示,特征词扩展使系统F值提高约4%,使用语义线性加权后F值再提高约2%,达到89.40%.
字母缩略术语、术语消歧、Word Embedding、语义相似度
28
TP391(计算技术、计算机技术)
国家自然科学基金61300081,61170162;国家科技支撑项目2012BAH16F00;北京语言大学中央高校基本科研业务专项资金14YJ030005
2014-10-31(万方平台首次上网日期,不代表论文的发表时间)
共9页
51-59