基于栈式预训练模型的中文序列标注
序列标注(sequence labelling)是自然语言处理(natural language processing)中的一类重要任务.在文中,根据任务的相关性,使用栈式预训练模型进行特征提取,分词,命名实体识别/语块标注.并且通过对BERT内部框架的深入研究,在保证原有模型的准确率下进行优化,降低了BERT模型的复杂度,减少了模型在训练和预测过程中的时间成本.上层结构上,相比于传统的长短期记忆络(LSTM),采用的是双层双向LSTM结构,底层使用双向长短期记忆网络(Bi-LSTM)用来分词,顶层用来实现序列标注任务.在新式半马尔可夫条件随机场(new semi-conditional random field,NSCRF)上,将传统的半马尔可夫条件随机场(Semi-CRF)和条件随机场(CRF)相结合,同时考虑分词和单词的标签,在训练和解码上提高了准确率.将模型在CCKS2019、MSRANER和BosonNLP数据集上进行训练并取得了很大的提升,F1测度分别达到了92.37%、95.69%和93.75%.
基于BERT的栈式模型、预训练模型、命名实体识别、语块分析
27
TP391(计算技术、计算机技术)
国家自然科学基金;中国博士后科学基金
2022-04-24(万方平台首次上网日期,不代表论文的发表时间)
共6页
8-13