基于栈式预训练模型的中文序列标注

引用

摘要：

序列标注(sequence labelling)是自然语言处理(natural language processing)中的一类重要任务.在文中,根据任务的相关性,使用栈式预训练模型进行特征提取,分词,命名实体识别/语块标注.并且通过对BERT内部框架的深入研究,在保证原有模型的准确率下进行优化,降低了BERT模型的复杂度,减少了模型在训练和预测过程中的时间成本.上层结构上,相比于传统的长短期记忆络(LSTM),采用的是双层双向LSTM结构,底层使用双向长短期记忆网络(Bi-LSTM)用来分词,顶层用来实现序列标注任务.在新式半马尔可夫条件随机场(new semi-conditional random field,NSCRF)上,将传统的半马尔可夫条件随机场(Semi-CRF)和条件随机场(CRF)相结合,同时考虑分词和单词的标签,在训练和解码上提高了准确率.将模型在CCKS2019、MSRANER和BosonNLP数据集上进行训练并取得了很大的提升,F1测度分别达到了92.37％、95.69％和93.75％.

关键词：基于BERT的栈式模型、预训练模型、命名实体识别、语块分析

所属期刊栏目：27

分类号：TP391(计算技术、计算机技术)

资助基金：国家自然科学基金;中国博士后科学基金

在线出版日期：2022-04-24（万方平台首次上网日期，不代表论文的发表时间）

页数：共6页

页码：8-13

英文信息展示

期刊专题