一种结合词向量和图模型的特定领域实体消歧方法
针对特定领域提出了一种结合词向量和图模型的方法来实现实体消歧。以旅游领域为例,首先选取维基百科离线数据库中的旅游分类下的页面内容构建领域知识库,然后用知识库中的文本和从各大旅游网站爬取到的旅游文本,通过词向量计算工具Word2Vec构建词向量模型,结合人工标注的实体关系图谱,采用一种基于图的随机游走算法辅助计算相似度,使其能够较准确地计算旅游领域词与词之间的相似度。最后,提取待消歧实体的背景文本的若干关键词和知识库中候选实体文本的若干关键词,利用训练好的词向量模型结合图模型分别进行交叉相似度计算,把相似度均值最高的候选实体作为最终的目标实体。实验结果表明,这种新的相似度计算方法能够有效获取实体指称项与目标实体之间的相似度,从而能够较为准确地实现特定领域的实体消歧。
实体消歧、实体链接、Word2Vec、图模型、随机游走、维基百科
11
TP393(计算技术、计算机技术)
国家自然科学基金项目61262041,61472168,61462054,61562052;云南省自然科学基金重点项目2013FA030.
2016-06-22(万方平台首次上网日期,不代表论文的发表时间)
共10页
366-375