基于代码语句掩码注意力机制的源代码迁移模型
源代码迁移技术旨在将源代码从一种编程语言转换至另一种编程语言,以减轻开发人员迁移软件项目的负担.现有研究通常利用神经机器翻译(NMT)模型将源代码转换为目标代码,但这些研究忽略了代码结构特征,导致源代码迁移性能不佳.为此,本文提出了基于代码语句掩码注意力机制的源代码迁移模型CSMAT(code-statement masked attention Transformer).该模型利用 Transformer 的掩码注意力机制(masked attention mechanism),在编码时引导模型理解源代码语句的语法和语义以及语句间上下文特征,在译码时引导模型关注并对齐源代码语句,从而提升源代码迁移性能.本文使用真实项目数据集CodeTrans进行实证研究,并使用4个指标评估模型性能.实验结果验证了 CSMAT的有效性,同时验证了代码语句掩码注意力机制在预训练模型的适用性.
代码语句、掩码、代码迁移、机器翻译、注意力机制
32
TP391;TP183;H313
国家自然科学基金;国家自然科学基金
2023-09-25(万方平台首次上网日期,不代表论文的发表时间)
共12页
77-88