10.11925/infotech.2096-3467.2019.1238
基于BERT模型的中文医学文献分类研究
[目的]探究BERT中文基础模型(BERT-Base-Chinese)和BERT中文医学预训练模型(BERT-RePretraining-Med-Chi)在中文医学文献分类上的分类效果及差异原因[方法]以34万篇中文医学文献摘要为医学文本预训练语料,分别以16 000和32 000条中文医学文献摘要为分类的训练样本,并以另外的3 200条摘要作为测试样本,利用BERT的两个模型进行中文医学文献分类研究,以SVM模型作为对比基准.[结果]BERT的两种模型在分类效果上均优于SVM模型,两种模型的F1值均比SVM模型高出0.05左右;BERT-Re-Pretraining-Med-Chi模型在两种样本量下的F1值分别达到0.839 0和0.860 7,均为三者中最好的分类效果.[局限]仅对中图分类号R下的16个类别进行分类研究,其余4个类别因数据量过少等原因而未纳入分类体系中.[结论]BERT-Re-Pretraining-Med-Chi模型能够显著提升医学文献的分类效果;基于BERT的深度学习方法在多类别大规模训练集下更能体现其分类的优越性.
深度学习、BERT、文献分类、预训练模型
4
G202;TP319(信息与传播理论)
2020-11-12(万方平台首次上网日期,不代表论文的发表时间)
共9页
41-49