DOI：10.3969/j.issn.1673-629X.2021.07.005

一种中国古典文学文本知识图谱构建方法

引用

摘要：

以中国古典文学为代表的古文是中文的重要组成部分,其语法、词汇相对于现代文而言更加复杂、讲究,给中文自然语言处理带来了机遇和挑战.针对上述问题,利用自然语言处理和知识图谱技术,以中国古典文学文本中具有代表性的《三国演义》为例,进行知识图谱构建.该方法通过语料库的网页标签匹配生成了一个分词与词性标注数据集,用来训练神经网络模型的联合分词和词性标注规则,并使用训练好的模型对《三国演义》进行测试解析;从结果中删除停用词,将内容词及其语义链接分别作为知识图谱中的节点和关系,并进行可视化展示.侧重于在古典文学文本进行联合分词与词性标注的基础上进行知识图谱构建.可视化展示的图像清晰地显示了非结构化文本中的重要信息.这项研究表明了以上工作流程的有效性,并展示了将自然语言处理和知识图谱应用于中国古典文学文本的潜力.

关键词：中国古典文学、知识图谱、Neo4j、自然语言处理、联合分词与词性标注

所属期刊栏目：31

分类号：TP391(计算技术、计算机技术)

资助基金：教育部人文社会科学研究项目18YJC870006

在线出版日期：2021-08-02（万方平台首次上网日期，不代表论文的发表时间）

页数：共8页

页码：28-34,41

英文信息展示

期刊专题