10.11925/infotech.2096-3467.2020.0032
基于深度学习的方志物产资料实体自动识别模型构建研究
[目的]探究古籍方志物产资料中物产别名、人物、产地及引书等4种实体的自动识别,用于方志物产知识库的构建.[方法]以机构特藏《方志物产》云南卷为基础语料,在文本预处理与语料标注基础上,采用4种深度学习模型Bi-RNN、Bi-LSTM、Bi-LSTM-CRF、BERT进行实验,并对实验结果进行对比分析.[结果]Bi-LSTM-CRF模型与Bi-LSTM模型相比,P值提高5.54%,F值提高3.51%;BERT模型的R值达到了83.36%,优于其他模型;Bi-LSTM-CRF模型对引书实体识别效果最好,F值为89.71%;BERT模型对人物实体识别效果最好,F值为87.90%.[局限]由于古籍方志文本语料特性,以及相关实体的认定需掌握领域知识,在人工标注过程中或存在一些漏标与错标的情况,导致模型未能最优化.[结论]研究表明深度学习方法对古籍方志文本实体识别任务的可行性与优越性.
深度学习、方志物产、命名实体识别、模型构建、数字人文
4
G255;K290(图书馆学、图书馆事业)
本文系国家社会科学基金重大项目“方志物产知识库构建及深度利用研究”;教育部人文社会科学研究青年基金项目“基于语义的方志物产资料知识组织与知识聚合实证研究”
2020-11-12(万方平台首次上网日期,不代表论文的发表时间)
共12页
86-97