ALICE:一种面向中文科技文本分析的预训练语言表征模型

引用

摘要：

深度学习模型应用于自然语言处理任务时依赖大型、高质量的人工标注数据集.为降低深度学习模型对大型数据集的依赖,提出一种基于BERT的中文科技自然语言处理预训练模型ALICE.通过对遮罩语言模型进行改进并将其与命名实体级遮罩相结合,改善基础模型在下游任务中的表现,使其学习到的语言表征更贴合中文的语言特性.实验结果表明,与BERT模型相比,ALICE模型对于中文科技文本的分类准确率和命名实体识别的F1值分别提高1.2％和0.8％.

关键词：预训练模型、迁移学习、BERT模型、文本分类、命名实体识别、自然语言推断

所属期刊栏目：46

分类号：TP391(计算技术、计算机技术)

资助基金：国家部委基金

在线出版日期：2020-04-22（万方平台首次上网日期，不代表论文的发表时间）

页数：共6页

页码：48-52,58

英文信息展示

期刊专题