10.3969/j.issn.1673-629X.2023.02.028
结合SS-GAN和BERT的文本分类模型
BERT是近年来提出的一种大型的预训练语言模型,在文本分类任务中表现优异,但原始BERT模型需要大量标注数据来进行微调训练,且参数规模大、时间复杂度高.在许多真实场景中,大量的标注数据是不易获取的,而且模型参数规模过大不利于在真实场景的实际应用.为了解决这一问题,提出了一种基于半监督生成对抗网络的BERT改进模型GT-BERT.采用知识蒸馏的压缩方法将BERT模型进行压缩;引入半监督生成对抗网络的框架对BERT模型进行微调并选择最优生成器与判别器配置.在半监督生成对抗网络的框架下增加无标签数据集对模型进行微调,弥补了标注数据较少的缺点.在多个数据集上的实验结果表明,改进模型GT-BERT在文本分类任务中性能优异,可以有效利用原始模型不能使用的无标签数据,大大降低了模型对标注数据的需求,并且具有较低的模型参数规模与时间复杂度.
文本分类、半监督、BERT、生成对抗网络、模型压缩
33
TP391.1(计算技术、计算机技术)
河北省高等学校科学技术研究重点项目ZD2014051
2023-03-07(万方平台首次上网日期,不代表论文的发表时间)
共8页
187-194