基于数据增广和复制的中文语法错误纠正方法
万方数据知识服务平台
应用市场
我的应用
会员HOT
万方期刊
×

点击收藏,不怕下次找不到~

@万方数据
会员HOT

期刊专题

10.11992/tis.202001014

基于数据增广和复制的中文语法错误纠正方法

引用
中文作为一种使用很广泛的文字,因其同印欧语系文字的天然差别,使得汉语初学者往往会出现各种各样的语法错误.本文针对初学者在汉语书写中可能出现的错别字、语序错误等,提出一种自动化的语法纠正方法.首先,本文在自注意力模型中引入复制机制,构建新的C-Transformer模型.构建从错误文本序列到正确文本序列的文本语法错误纠正模型,其次,在公开数据集的基础上,本文利用序列到序列学习的方式从正确文本学习对应的不同形式的错误文本,并设计基于通顺度、语义和句法度量的错误文本筛选方法;最后,还结合中文象形文字的特点,构造同形、同音词表,按词表映射的方式人工构造错误样本扩充训练数据.实验结果表明,本文的方法能够很好地纠正错别字、语序不当、缺失、冗余等错误,并在中文文本语法错误纠正标准测试集上取得了目前最好的结果.

自注意力机制、复制机制、序列到序列学习、中文、语法错误纠正、神经网络、文本生成、通顺度

15

TP389.1(计算技术、计算机技术)

国家重点研发计划资助项目;国家重点基础研究发展计划项目 ;国家自然科学基金项目;北京市自然科学基金项目

2020-07-01(万方平台首次上网日期,不代表论文的发表时间)

共8页

99-106

相关文献
评论
暂无封面信息
查看本期封面目录

智能系统学报

1673-4785

23-1538/TP

15

2020,15(1)

相关作者
相关机构

专业内容知识聚合服务平台

国家重点研发计划“现代服务业共性关键技术研发及应用示范”重点专项“4.8专业内容知识聚合服务技术研发与创新服务示范”

国家重点研发计划资助 课题编号:2019YFB1406304
National Key R&D Program of China Grant No. 2019YFB1406304

©天津万方数据有限公司 津ICP备20003920号-1

信息网络传播视听节目许可证 许可证号:0108284

网络出版服务许可证:(总)网出证(京)字096号

违法和不良信息举报电话:4000115888    举报邮箱:problem@wanfangdata.com.cn

举报专区:https://www.12377.cn/

客服邮箱:op@wanfangdata.com.cn