DOI：10.3969/j.issn.1673-7938.2021.06.001

关于中文拼写纠错数据增强的方法

引用

摘要：

针对中文文本纠错领域中训练深度学习模型所需要的标注数据有限这一问题,提出了五种数据噪声替换方案.通过实验验证,证明了其中的音似替换和形似替换两种方案可以有效增强该领域数据质量,然后通过对这两种替换方案的对比实验,探索出了一种更有效的混合替换方案.其核心在于通过噪声替换的方式提升现有数据集的大小和多样性,进而提高中文拼写纠错模型的性能.

关键词：中文拼写纠错;深度学习;标注数据;噪声替换;数据增强

所属期刊栏目：31

分类号：TP391(计算技术、计算机技术)

资助基金：河北省自然科学基金项目F2019409056

在线出版日期：2021-12-21（万方平台首次上网日期，不代表论文的发表时间）

页数：共5页

页码：1-4,44

英文信息展示

期刊专题