DOI：10.3969/j.issn.1000-2375.2023.00.006

基于BERT-Encoder和数据增强的语法纠错模型

引用

摘要：

语法纠错是自然语言处理领域的重要任务之一,中文由于语法规则灵活复杂,中文语法纠错一直是一项具有挑战性的任务.本研究将中文语法纠错视为机器翻译问题,将错误的语句作为源语句翻译成正确的目标语句.使用Transformer模型作为基线纠错模型,首先,利用 BERT 学习到的参数初始化编码器(BERT-Encoder)使模型更好的收敛,然后,利用动态掩蔽作为数据增强方法,解决训练所需的带错误标注的平行语料不足的问题.使用 MaxMatch Scorer 作为评价指标,F0.5 相比基线模型提升了 9.94%,实验结果表明该方法对模型纠错性能的提升具有有效性.

关键词：中文语法纠错、机器翻译、BERT-Encoder、数据增强

所属期刊栏目：45

分类号：TP398.1(计算技术、计算机技术)

资助基金：国家自然科学基金61902114

在线出版日期：2023-09-15（万方平台首次上网日期，不代表论文的发表时间）

页数：共7页

页码：719-725

英文信息展示

期刊专题