10.13266/j.issn.0252-3116.2021.03.013
数字人文下的典籍深度学习实体自动识别模型构建及应用研究
[目的/意义]典籍是我国传统文化、思想和智慧的载体,结合数字人文的数据获取、标注和分析方法对典籍进行实体自动识别,对于后续应用研究具有重要意义.[方法/过程]基于经过自动分词与人工标注的25本先秦典籍构建古籍语料库,分别基于不同规模的语料库和Bi-LSTM、Bi-LSTM-Attention、Bi-LSTM-CRF、Bi-LSTM-CRF-Atten-tion、Bi-RNN和Bi-RNN-CRF、BERT等7种深度学习模型,从中抽取构成历史事件的相应实体并进行效果对比.[结果/结论]在全部语料上训练得到的Bi-LSTM-Attention与Bi-RNN-CRF模型的准确率分别达到89.79%和89.33%,证实了深度学习应用于大规模文本数据集的可行性.
数字人文、深度学习、命名实体识别、先秦典籍
65
G255.1(图书馆学、图书馆事业)
国家自然科学基金;国家社会科学基金
2021-04-02(万方平台首次上网日期,不代表论文的发表时间)
共9页
100-108