10.14022/j.issn1674-6236.2021.16.014
基于结合词典的CNN-BiGRU-CRF网络中文分词研究
针对现有的基于神经网络中文分词模型,通常需要大量的标注句来进行模型训练,不能充分利用汉语词典中的有用信息等问题,文中提出了将基于伪标记数据生成和基于多任务学习的两种方法融合来利用字典信息,将字典信息加入到CNN-BiGRU-CRF模型中进行训练,通过在两个基准数据集PKU和MSRA上进行验证,其准确率分别达到97.6%和97.8%,实验结果验证了该方法可以有效地提高中文分词的性能.
中文分词;字典信息;伪标记数据生成;多任务学习;序列标注
29
TP391(计算技术、计算机技术)
太原理工大学科技创新基金资助9002-03011843
2021-08-23(万方平台首次上网日期,不代表论文的发表时间)
共7页
64-69,74