DOI：10.11992/tis.202001014

基于数据增广和复制的中文语法错误纠正方法

引用

摘要：

中文作为一种使用很广泛的文字,因其同印欧语系文字的天然差别,使得汉语初学者往往会出现各种各样的语法错误.本文针对初学者在汉语书写中可能出现的错别字、语序错误等,提出一种自动化的语法纠正方法.首先,本文在自注意力模型中引入复制机制,构建新的C-Transformer模型.构建从错误文本序列到正确文本序列的文本语法错误纠正模型,其次,在公开数据集的基础上,本文利用序列到序列学习的方式从正确文本学习对应的不同形式的错误文本,并设计基于通顺度、语义和句法度量的错误文本筛选方法;最后,还结合中文象形文字的特点,构造同形、同音词表,按词表映射的方式人工构造错误样本扩充训练数据.实验结果表明,本文的方法能够很好地纠正错别字、语序不当、缺失、冗余等错误,并在中文文本语法错误纠正标准测试集上取得了目前最好的结果.

关键词：自注意力机制、复制机制、序列到序列学习、中文、语法错误纠正、神经网络、文本生成、通顺度

所属期刊栏目：15

分类号：TP389.1(计算技术、计算机技术)

资助基金：国家重点研发计划资助项目;国家重点基础研究发展计划项目 ;国家自然科学基金项目;北京市自然科学基金项目

在线出版日期：2020-07-01（万方平台首次上网日期，不代表论文的发表时间）

页数：共8页

页码：99-106

英文信息展示

期刊专题