一种多音字读音预测方法、装置及计算机可读存储介质

引用

摘要：

本发明公开了一种多音字读音预测方法，涉及计算机语音处理技术领域，旨在解决现有技术中多音字读音标注准确率低的问题。其技术方案要点是获取大量包含多音字的文本及其拼音全拼；使用批量迭代训练的方法，在所设计的模型上进行训练，得到多音字预测模型；在文本读音标注系统中，获取用户输入的文本，使用多音字预测模型对其读音进行预测，查表获取单音字拼音，拼接输出文本对应的拼音。本发明利用深度神经网络学习文本的上下文信息，对多音字读音进行预测，达到了提高多音字读音预测准确度的效果。

专利类型：发明专利

申请/专利号：CN202010727658.8

申请日期：2020-07-27

公开/公告号：CN111599340A

公开/公告日：2020-08-28

主分类号：G10L13/02(2013.01)

申请/专利权人:南京硅基智能科技有限公司

发明/设计人:司马华鹏;王培雨

主申请人地址:210012 江苏省南京市雨花台区凤信路20号万博科技园C号楼4层

专利代理机构:江苏舜点律师事务所

代理人:孙丹

国别省市代码:江苏;32

权利要求：

1.一种多音字读音预测方法，其特征在于，包括以下步骤：将输入文本导入训练的多音字预测模型中，获取多音字在输入文本中的读音；将输入文本进行单音字读音标注，获取单音字读音；将单音字读音和多音字读音按照文本顺序进行组合，输出整个文本读音；其中，多音字预测模型的训练包括以下步骤：输入包含多音字的训练文本，标注对应的正确读音，输出训练文本对应的数据文本；将数据文本输入到预训练语言模型，获取数据的向量表示；将向量输入深度学习模型进行批量迭代训练，获得多音字预测模型；标注对应的正确读音包括将训练文本中的多音字按照正确读音标注，单音字用符号标注；深度学习模型包括有循环与输入向量进行卷积操作，获得多音字所在位置上下文分别进行卷积操作得到的两个向量，将这两个向量进行拼接后输入GRU网络中进行重置和更新，将GRU网络输出向量进行随机失活，输出多维向量，将输出的多维向量转换为一维向量，通过函数将一维向量各个元素映射到各个读音对应的概率，输出概率最大的读音。 2.根据权利要求1的一种多音字读音预测方法，其特征在于：所述预训练模型为Word2vec或bert模型。 3.根据权利要求2的一种多音字读音预测方法，其特征在于：多音字预测模型的训练包括在每次迭代时采用随机梯度下降算法训练模型，采用交叉熵损失函数评价模型拟合的程度。 4.一种多音字读音预测装置，其特征在于，包括：多音字预测模块，用于将输入文本导入训练的多音字预测模型中，获取多音字在输入文本中的读音；单音字读音标注模块，用于将输入文本进行单音字读音标注，获取单音字读音；读音组合模块，用于将单音字读音和多音字读音按照文本顺序进行组合，输出整个文本读音；多音字预测模块包括：输入层，用于输入包含多音字的训练文本，标注对应的正确读音，输出训练文本对应的数据文本；预训练层，用于将数据文本输入到预训练语言模型，获取数据的向量表示；卷积层，用于循环与预训练层输出向量进行卷积操作，获得多音字所在位置上下文分别进行卷积操作得到的两个向量；拼接层，用于将卷积层输出的两个向量进行拼接； GRU网络层，用于有选择地对拼接层输出的向量进行重置和更新； Dropout层，用于将GRU网络层输出向量进行随机失活；全连接层，用于将Dropout层输出的多维向量转成一维向量；输出层，用于利用函数将全连接层输出的向量元素映射到各个读音对应的概率，输出概率最大的读音。 5.根据权利要求4的一种多音字读音预测装置，其特征在于：多音字预测模块包括在每次迭代时采用随机梯度下降算法训练模型，采用交叉熵损失函数评价模型拟合的程度。 6.根据权利要求5的一种多音字读音预测装置，其特征在于：包括有语音合成模块，用于将读音组合模块输出的读音合成语音，输出音频。 7.一种计算机可读存储介质，其特征在于：包括一组计算机可执行指令，当指令被执行时用于执行权利要求1-3任一项的一种多音字读音预测方法。

专利专题