10.3969/j.issn.1002-1167.2022.12.022
面向数字人文的《四库全书》子部自动分类研究 ——以SikuBERT和SikuRoBERTa预训练模型为例
文章基于面向古文自然语言处理的SikuBERT和SikuRoBERTa预训练语言模型,在《四库全书》子部14个类别的古籍文本上开展典籍自动分类模型的构建,并与BERT、BERT-wwm、RoBERTa和RoBERTa-wwm基线模型进行对比.文章提出的两种分类模型效果均优于基线模型,SikuBERT模型取得90.39%的整体分类F值,在天文算法类古籍上的分类F值达98.83%.在类别自动识别任务中,SikuRoBERTa的预测正确率达95.30%.基于SikuBERT和SikuRoBERTa预训练语言模型的四库自动分类体系可以将典籍文本划分为所属子部类别,构建的分类工具为高效自动化典籍分类提供了新途径.
预训练模型、SikuBERT、文本分类、数字人文《四库全书》子部
42
TP391;G250;TP183
国家社会科学基金21&ZD331
2022-12-22(万方平台首次上网日期,不代表论文的发表时间)
共11页
138-148