10.3772/j.issn.1000-0135.2023.02.003
融合结构特性的语义增强式古籍句读识别方法研究
数字人文概念的提出扩展了古文自动化处理的内涵与外延,实现古籍文本语义的深层理解成为首要任务.因此,本文重点探索古籍句读识别任务中的语义增强模式,以提升主流BBiC模型(BERT-BiLSTM-CRF)表征古籍文本语义的能力.本文融合结构特性从文本与模型两个维度实现古籍文本语义的深层表征,提出引入细粒度文本知识的BBiC-EK(BBiC-external knowledge)模型与融合文本结构特征的BBiCC-EK模型(BBiC-CNN-EK),并从模型结构化角度探究CNN与BiLSTM的最优连接方式以及外部知识编码的最优引入位置,多方位探究模型提升效果.研究结果表明,采用BBiC-EK模型中的最优外部知识组合模式,相较于基线BBiC模型能将句读识别准确率提升0.83个百分点;进一步融合CNN并探究最优模型结构下的BBiCC-EK(Se)模型能将BBiC模型的识别准确率提升1.36个百分点.本文通过融合结构特性的语义增强技术,实现了古籍文本句读识别准确率的提升,为古籍文本的自动化语义理解提供了新思路.
数字人文、古籍文本、句读识别、B E RT
42
G804;TP391.41;G255.1
国家社会科学基金;江苏青年社科英才计划;南京大学仲英青年学者项目
2023-04-23(万方平台首次上网日期,不代表论文的发表时间)
共14页
150-163