AMR文本生成的数据扩充方法
万方数据知识服务平台
应用市场
我的应用
会员HOT
万方期刊
×

点击收藏,不怕下次找不到~

@万方数据
会员HOT

期刊专题

10.19678/j.issn.1000-3428.0061106

AMR文本生成的数据扩充方法

引用
在抽象语义表示(AMR)文本生成过程中,AMR图到文本形式的转换在很大程度上受语料规模的影响.提出一种简单有效的动态数据扩充方法,在已标注数据集规模有限的情况下提高AMR文本生成性能.将AMR文本生成模型解码端视作一个语言模型,使用单词级别的扩充方法,通过动态地对目标端单词进行随机替换,得到带噪声的数据,从而增强模型的泛化能力.在加载数据时,随机选择目标句子中的部分单词做噪声化处理,利用约束编码器预测被覆盖的单词并还原出原始语句,使模型具有更深层的语言表征能力.基于AMR2.0和AMR3.0英文标准数据集进行实验,结果表明,该方法可有效提升AMR文本生成系统性能,与未引入噪声的基准Transformer模型相比,能够获得更优的BLEU、Meteor和chrF++指标,其中BLEU值在人工标注语料场景下分别提升0.68和0.64,且在大规模自动标注语料场景下也能提升0.60和0.68.

抽象语义表示、语料规模、AMR文本生成、动态数据扩充、噪声

48

TP18(自动化基础理论)

国家自然科学基金61876120

2022-05-17(万方平台首次上网日期,不代表论文的发表时间)

共7页

91-97

相关文献
评论
暂无封面信息
查看本期封面目录

计算机工程

1000-3428

31-1289/TP

48

2022,48(5)

相关作者
相关机构

专业内容知识聚合服务平台

国家重点研发计划“现代服务业共性关键技术研发及应用示范”重点专项“4.8专业内容知识聚合服务技术研发与创新服务示范”

国家重点研发计划资助 课题编号:2019YFB1406304
National Key R&D Program of China Grant No. 2019YFB1406304

©天津万方数据有限公司 津ICP备20003920号-1

信息网络传播视听节目许可证 许可证号:0108284

网络出版服务许可证:(总)网出证(京)字096号

违法和不良信息举报电话:4000115888    举报邮箱:problem@wanfangdata.com.cn

举报专区:https://www.12377.cn/

客服邮箱:op@wanfangdata.com.cn