基于BERT和多特征融合嵌入的中文拼写检查
万方数据知识服务平台
应用市场
我的应用
会员HOT
万方期刊
×

点击收藏,不怕下次找不到~

@万方数据
会员HOT

期刊专题

10.11896/jsjkx.220100104

基于BERT和多特征融合嵌入的中文拼写检查

引用
由于汉字的多样性和中文语义表达的复杂性,中文拼写检查仍是一项重要且富有挑战性的任务.现有的解决方法通常存在无法深入挖掘文本语义的问题,且在利用汉字独特的相似性特征时往往通过预先建立的外部资源或是启发式规则来学习错误字符与正确字符之间的映射关系.文中提出了一种融合汉字多特征嵌入的端到端中文拼写检查算法模型BFMBERT(BiGRU-Fusion Mask BERT).该模型首先利用结合混淆集的预训练任务使BERT学习中文拼写错误知识,然后使用双向GRU网络捕获文本中每个字符错误的概率,利用该概率计算汉字语义、拼音和字形特征的融合嵌入表示,最后将这种融合嵌入输入到BERT中的掩码语言模型(Mask Language Model,MLM)以预测正确字符.在SIGHAN 2015基准数据集上对BFM-BERT进行了评测,取得了82.2的F1值,其性能优于其他基线模型.

中文拼写检查、BERT、文本校对、掩码语言模型、字词错误校对、预训练模型

50

TP181(自动化基础理论)

国家自然科学基金;四川省重点研发项目;中央高校基本科研业务费专项

2023-03-22(万方平台首次上网日期,不代表论文的发表时间)

共9页

282-290

相关文献
评论
暂无封面信息
查看本期封面目录

计算机科学

1002-137X

50-1075/TP

50

2023,50(3)

相关作者
相关机构

专业内容知识聚合服务平台

国家重点研发计划“现代服务业共性关键技术研发及应用示范”重点专项“4.8专业内容知识聚合服务技术研发与创新服务示范”

国家重点研发计划资助 课题编号:2019YFB1406304
National Key R&D Program of China Grant No. 2019YFB1406304

©天津万方数据有限公司 津ICP备20003920号-1

信息网络传播视听节目许可证 许可证号:0108284

网络出版服务许可证:(总)网出证(京)字096号

违法和不良信息举报电话:4000115888    举报邮箱:problem@wanfangdata.com.cn

举报专区:https://www.12377.cn/

客服邮箱:op@wanfangdata.com.cn