双语影视知识图谱的构建研究

引用

摘要：

提出一种双语影视知识图谱(BMKG)的构建流程.通过半自动化的方法构建了双语影视本体(BMO),将各个影视数据源对齐到BMO,以保持异构数据源的语义描述一致性.在知识链接方面,在充分挖掘和利用领域特征的基础上,采用基于Word2Vec和TFIDF两种向量模型的实体相似度计算方法,使相似度特征增加一倍,大大提升了模型的链接效果.在实体匹配方面,提出基于相似度传播算法的实体匹配算法,并利用影视数据源之间的内在联系,克服了跨语言实体之间计算相似度的语言障碍.实验结果表明,当阈值取到0.75以上时,实体匹配的准确率都能达到90％左右.此外,还建立了影视知识图谱共享平台,并提供开放性的数据访问和查询接口.

关键词：影视本体、双语、知识图谱

所属期刊栏目：52

分类号：TP391(计算技术、计算机技术)

资助基金：国家重点基础研究发展计划2014CB340504;国家自然科学基金委员会与法国国家科研署双边合作协议61261130588;清华大学自主科研项目20131089256;国家科技支撑计划2014BAK04B00;THU-NUS下一代搜索联合研究中心项目资助

在线出版日期：2017-01-18（万方平台首次上网日期，不代表论文的发表时间）

页数：共10页

页码：25-34

英文信息展示

期刊专题