DOI：10.3969/j.issn.1672-9870.2017.04.020

基于BI-LSTM-CRF模型的中文分词法

引用

摘要：

递归神经网络能够很好地处理序列标记问题,已被广泛应用到自然语言处理(NLP)任务中.提出了一种基于长短期记忆(LSTM)神经网络改进的双向长短期记忆条件随机场(BI-LSTM-CRF)模型,不仅保留了LSTM能够利用上下文信息的特性,同时能够通过CRF层考虑输出标签之间前后的依赖关系.利用该分词模型,通过加入预训练的字嵌入向量,以及使用不同词位标注集在Bakeoff2005数据集上进行的分词实验,结果表明:BI-LSTM-CRF模型比LSTM和双向LSTM模型具有更好的分词性能,同时具有很好地泛化能力;相比四词位,采用六词位标注集的神经网络模型能够取得更好的分词性能.

关键词：中文分词、BI-LSTM-CRF、词位标注

所属期刊栏目：40

分类号：TP391(计算技术、计算机技术)

资助基金：吉林省科技攻关项目20160204003GX

在线出版日期：2017-10-13（万方平台首次上网日期，不代表论文的发表时间）

页数：共6页

页码：87-92

英文信息展示

期刊专题