10.3969/j.issn.1003-0077.2022.12.007
概率式关联可信中文知识图谱——"文脉"
国内现有的中文知识图谱往往以维基百科、百度百科等群体智能贡献的知识库作为资源抽取得到,但这些知识图谱利用的主要是百科的实体名片信息和分类体系信息.然而,这些百科中也有大量的内部链接信息,其中蕴含了大量知识.故而该文中利用维基百科的内部链接构造边,并统计目标实体在源实体定义文本中出现的频度,利用其对应的T F-ID F值作为边权,构造了一个概率式中文知识图谱.该文还提出了一种可信链接筛选算法,对偶发链接进行了去除,使知识图谱更加可信.基于上述方法,该文挖掘出了一个概率式关联可信中文知识图谱,命名为"文脉",将其在GitHub上进行了开源,以期能对知识指导的自然语言处理以及其他下游任务有所襄助.
维基百科、知识图谱构建、可信链接筛选
36
TP391(计算技术、计算机技术)
国家社会科学基金18ZDA238
2023-02-20(万方平台首次上网日期,不代表论文的发表时间)
共7页
67-73