10.3969/j.issn.1000-2375.2023.00.006
基于BERT-Encoder和数据增强的语法纠错模型
语法纠错是自然语言处理领域的重要任务之一,中文由于语法规则灵活复杂,中文语法纠错一直是一项具有挑战性的任务.本研究将中文语法纠错视为机器翻译问题,将错误的语句作为源语句翻译成正确的目标语句.使用Transformer模型作为基线纠错模型,首先,利用 BERT 学习到的参数初始化编码器(BERT-Encoder)使模型更好的收敛,然后,利用动态掩蔽作为数据增强方法,解决训练所需的带错误标注的平行语料不足的问题.使用 MaxMatch Scorer 作为评价指标,F0.5 相比基线模型提升了 9.94%,实验结果表明该方法对模型纠错性能的提升具有有效性.
中文语法纠错、机器翻译、BERT-Encoder、数据增强
45
TP398.1(计算技术、计算机技术)
国家自然科学基金61902114
2023-09-15(万方平台首次上网日期,不代表论文的发表时间)
共7页
719-725