DOI：10.3969/j.issn.1673-629X.2020.11.013

基于深度学习的中文语法错误诊断方法研究

引用

摘要：

随着中国国际影响力的日益提高和汉语国际地位的提升,学习和使用汉语的国际学者越来越多.中文文本校对技术有助于各个领域处理所涉及到的文本错误,其中中文语法错误诊断是中文计算机辅助学习的研究热点之一.鉴于此,根据中文语法错误诊断的特点,通过分析现有中文语法错误诊断方法存在的问题,提出一种基于注意机制的双向长短期记忆网络(BI-LASM-ATT)与条件随机场(CRF)相结合的模型应用于中文语法错误诊断研究.该模型采用jieba分词技术对数据进行分词和词性标注等预处理工作,利用Skip-gram模型得到词向量表示,作为BI-LSTM-ATT模型的词嵌入层,获取到两个方向上的长距离信息提供给CRF模型进行序列标注.在NLPCC2018的TASK2提供的数据集上的实验结果表明,该模型对比传统语法错误诊断模型,在中文语法错误诊断的Accuracy、精确率、召回率和F_meature方面均有明显提高.

关键词：深度学习、条件随机场、长短期记忆网络、注意机制、语法错误诊断

所属期刊栏目：30

分类号：TP391(计算技术、计算机技术)

资助基金：国家自然科学基金;黑龙江省自然科学基金项目;东北石油大学青年科学基金

在线出版日期：2020-12-15（万方平台首次上网日期，不代表论文的发表时间）

页数：共5页

页码：69-73

英文信息展示

期刊专题