10.11959/j.issn.1000−436x.2022222
基于中文语义?音韵信息的语音识别文本校对模型
为了研究拼音对检测和纠正语音识别文本错误的影响,提出了一种基于中文语义?音韵信息的文本校对模型.定义了5种拼音编码方法构建字符?音韵嵌入向量,以此作为基于GRU的Seq2Seq模型的输入,并应用注意力机制提取语句的语义?音韵信息来校对语音识别文本错误.针对标注语料不足的问题,提出了一种基于拼音声韵置换的数据增强方法.在AISHELL-3公开数据集的实验结果表明,拼音携带的音韵信息有利于校对语音识别文本错误,所提方法可提升模型的检错性能.
文本校对、语音识别、拼音、注意力机制
43
TP391(计算技术、计算机技术)
国家重点研发计划;国家自然科学基金;国家自然科学基金;北京市自然科学基金资助项目;河北省自然科学基金资助项目;河北省创新能力提升计划资助项目;河北省软件工程重点实验室基金资助项目
2022-12-22(万方平台首次上网日期,不代表论文的发表时间)
共15页
65-79