DOI：10.11925/infotech.2096-3467.2019.1238

基于BERT模型的中文医学文献分类研究

引用

摘要：

[目的]探究BERT中文基础模型(BERT-Base-Chinese)和BERT中文医学预训练模型(BERT-RePretraining-Med-Chi)在中文医学文献分类上的分类效果及差异原因[方法]以34万篇中文医学文献摘要为医学文本预训练语料,分别以16 000和32 000条中文医学文献摘要为分类的训练样本,并以另外的3 200条摘要作为测试样本,利用BERT的两个模型进行中文医学文献分类研究,以SVM模型作为对比基准.[结果]BERT的两种模型在分类效果上均优于SVM模型,两种模型的F1值均比SVM模型高出0.05左右;BERT-Re-Pretraining-Med-Chi模型在两种样本量下的F1值分别达到0.839 0和0.860 7,均为三者中最好的分类效果.[局限]仅对中图分类号R下的16个类别进行分类研究,其余4个类别因数据量过少等原因而未纳入分类体系中.[结论]BERT-Re-Pretraining-Med-Chi模型能够显著提升医学文献的分类效果;基于BERT的深度学习方法在多类别大规模训练集下更能体现其分类的优越性.

关键词：深度学习、BERT、文献分类、预训练模型

所属期刊栏目：4

分类号：G202;TP319(信息与传播理论)

在线出版日期：2020-11-12（万方平台首次上网日期，不代表论文的发表时间）

页数：共9页

页码：41-49

英文信息展示

期刊专题