基于门控特征融合的中文错别字纠正模型

引用

摘要：

针对在中文错别字纠正中,平等地融合汉字的语义、读音和字形信息进行建模的方法会由于错误的读音或字形信息而影响模型性能的问题,提出了一种基于门控特征融合的中文错别字纠正模型,利用自适应门控来选择性地融合语义、读音和字形信息,提升模型性能并加强模型的可解释性.此外,使用改进的四角号码编码汉字的字形信息,有效地提取了汉字的字形特征,并且基于此扩展了模型预训练时的字形相似混淆集.使用了基于混淆集替换的预训练掩码策略,使模型能有效学习文本错误知识.在公开数据集SIGHAN13、SIGHAN14和SIGHAN15上,所提模型分别取得了 78.7％、67.8％和77.7％的纠错F1分数,相比于最优基线模型分别提升了1.5％、1.5％和 1.0％.

关键词：中文错别字纠正、预训练、门控特征融合、四角号码

所属期刊栏目：46

分类号：TP183(自动化基础理论)

资助基金：国家自然科学基金61601046

在线出版日期：2023-10-07（万方平台首次上网日期，不代表论文的发表时间）

页数：共7页

页码：91-96,122

英文信息展示

期刊专题