基于海量文本数据的知识图谱自动构建算法

引用

摘要：

现有方法在构建知识图谱过程中,由于忽视了对半结构化数据的处理,导致知识图谱构建精确性不高,且耗时过长,为此本文提出基于海量文本数据的知识图谱自动构建算法.利用三元组抽取器实现海量文本数据源抽取,并提取其中的半结构化数据,同时剔除冗余数据.根据数据处理结果,利用数据采集功能选取适当的数据对象,作为知识图谱构建的文本数据源,并对数据源实行文本格式转换、分词和特征提取等规范化处理.分析得出数据的潜在语义,并绘制XTM可视化图谱,构成初步的知识图谱.挖掘该知识图谱中的已存知识,将潜在向量应用在信息推荐中,组成用户、评分与项目的三元组数据,采用图谱演进算法对评分、用户及项目进行预测,构建潜在向量模型生成多领域推荐,从而实现知识图谱的自动演进.实验结果表明,该算法具有更高的构建精确性,并且用时较短,说明该算法具有可靠性与实际应用性.

关键词：海量文本数据、知识图谱、三元组抽取器、格式转换、特征提取

所属期刊栏目：51

分类号：TP311(计算技术、计算机技术)

资助基金：国家自然科学基金41671400

在线出版日期：2022-05-26（万方平台首次上网日期，不代表论文的发表时间）

页数：共6页

页码：1358-1363

英文信息展示

期刊专题