用于优化语音识别过程的方法、设备和存储介质

引用

摘要：

本发明的实施方式提供了一种用于优化语音识别过程的方法、设备和存储介质。该方法包括：响应于接收到待识别语音信息，使用第一处理器对所述待识别语音信息进行特征提取，以获得所述待识别语音信息的特征信息；使用不同于所述第一处理器的第二处理器对所述特征信息进行基于神经网络模型的推理运算；以及使用所述第一处理器对所述推理运算的运算结果进行解码处理，以获得所述待识别语音信息的语音识别结果。根据本发明实施方式的方法，可以充分利用每个处理器的计算能力，并且显著降低设备的功耗，以实现减少延时和延长设备续航能力的目的，为用户带来了更好的体验。

专利类型：发明专利

申请/专利号：CN202110564902.8

申请日期：2021-05-24

公开/公告号：CN113205818A

公开/公告日：2021-08-03

主分类号：G10L15/34(2013.01)

申请/专利权人:网易有道信息技术(北京)有限公司

发明/设计人:李丽丽;张广勇;段亦涛

主申请人地址:100094 北京市海淀区西北旺东路10号院中关村软件园西区7号楼A座1层

专利代理机构:北京维昊知识产权代理事务所(普通合伙)

代理人:王颖慧

国别省市代码:北京;11

权利要求：

1.一种用于优化语音识别过程的方法，包括：响应于接收到待识别语音信息，使用第一处理器对所述待识别语音信息进行特征提取，以获得所述待识别语音信息的特征信息；使用不同于所述第一处理器的第二处理器对所述特征信息进行基于神经网络模型的推理运算；以及使用所述第一处理器对所述推理运算的运算结果进行解码处理，以获得所述待识别语音信息的语音识别结果。 2.根据权利要求1所述的方法，其中在使用第二处理器进行基于神经网络模型的推理运算中，所述方法还包括：在执行所述推理运算之前申请第一内存块；以及将所述每层网络结构的权重参数存储在所述第一内存块中，其中各层网络结构的权重参数的地址基于基准地址和相应的偏移量来确定。 3.根据权利要求2所述的方法，其中将所述每层网络结构的权重参数存储在所述第一内存块中包括：对所述权重参数进行非对称量化，以得到量化权重参数；以及将所述量化权重参数存储在所述第一内存块中。 4.根据权利要求1所述的方法，其中在使用第一处理器进行特征提取时，所述方法还包括：使用所述第一处理器的中核和/或大核来对所述待识别语音信息进行特征提取；和/或在使用所述第一处理器对所述推理运算的运算结果进行解码处理时，所述方法还包括：使用所述第一处理器的中核和/或大核来对所述运算结果进行解码处理。 5.根据权利要求1所述的方法，进一步包括：对所述特征信息进行非对称量化，使得所述特征信息由第一位宽的浮点数据类型转化为第二位宽的定点数据类型，以便所述第二处理器对所述第二位宽的定点数据类型的所述特征信息进行处理；以及对所述运算结果进行反量化处理，使得所述运算结果由所述第二位宽的定点数据类型转化为所述第一位宽的浮点数据类型，以便所述第一处理器对所述第一位宽的浮点数据类型的所述运算结果进行处理。 6.根据权利要求5所述的方法，在使用第二处理器对所述特征信息进行基于神经网络模型的推理运算时，所述方法还包括：对所述推理运算中产生的第一位宽的中间数据进行重量化，使得所述第二处理器在对所述神经网络模型的每层结构的推理运算中均使用所述第二位宽的定点数据类型的数据进行处理。 7.根据权利要求5或6所述的方法，其中在使用第二处理器对所述特征信息进行基于神经网络模型的推理运算时，所述方法还包括：在基于所述神经网络模型的量化求和运算和/或重量化过程中，根据所述量化求和运算和/或所述重量化过程中的向量的数值大小，使用相应的放大系数对所述向量进行放大。 8.根据权利要求1-7任一所述的方法，其中所述第一处理器和所述第二处理器设置于端侧。 9.根据权利要求1-8任一所述的方法，其中，所述第一处理器包括中央处理器；所述第二处理器包括数字信号处理器、图形处理器和嵌入式神经网络处理器中的至少一种。 10.一种用于优化语音识别过程的设备，包括：第一处理器，其用于对接收到的待识别语音信息进行特征提取，以获得所述待识别语音信息的特征信息；以及对基于神经网络模型的推理运算的运算结果进行解码处理，以获得所述待识别语音信息的语音识别结果；第二处理器，其与所述第一处理器连接，并用于对所述特征信息进行基于所述神经网络模型的所述推理运算。 11.根据权利要求10所述的设备，其中所述第二处理器还用于在执行所述推理运算之前申请第一内存块；以及所述第一处理器用于将所述每层网络结构的权重参数存储在所述第一内存块中，其中各层网络结构的权重参数的地址基于基准地址和相应的偏移量来确定。 12.根据权利要求11所述的设备，其中所述第一处理器还用于：对所述权重参数进行非对称量化，以得到量化权重参数；以及将所述量化权重参数存储在所述第一内存块中。 13.根据权利要求10所述的设备，其中所述第一处理器还用于：使用中核和/或大核来对所述待识别语音信息进行特征提取；和/或使用中核和/或大核来对所述运算结果进行解码处理。 14.根据权利要求10所述的设备，所述第一处理器还用于：对所述特征信息进行非对称量化，使得所述特征信息由第一位宽的浮点数据类型转化为第二位宽的定点数据类型，以便所述第二处理器对所述第二位宽的定点数据类型的所述特征信息进行处理；以及对所述运算结果进行反量化处理，使得所述运算结果由所述第二位宽的定点数据类型转化为所述第一位宽的浮点数据类型，并对所述第一位宽的浮点数据类型的所述运算结果进行处理。 15.根据权利要求14所述的设备，其中所述第二处理器还用于：对所述推理运算中产生的第一位宽的中间数据进行重量化，以便在对所述神经网络模型的每层结构的推理运算中均使用所述第二位宽的定点数据类型的数据进行处理。 16.根据权利要求14或15所述的设备，其中在对所述特征信息进行基于神经网络模型的推理运算时，所述第二处理器还用于：在基于所述神经网络模型的量化求和运算和/或重量化过程中，根据所述量化求和运算和/或所述重量化过程中的向量的数值大小，使用相应的放大系数对所述向量进行放大。 17.根据权利要求10-16任一所述的设备，其中所述第一处理器和所述第二处理器设置于端侧。 18.根据权利要求10-17任一所述的设备，其中，所述第一处理器包括中央处理器；所述第二处理器包括数字信号处理器、图形处理器和嵌入式神经网络处理器中的至少一种。 19.一种计算机可读存储介质，其存储有用于优化语音识别过程的程序，当所述程序由处理器来运行时，执行根据权利要求1-9的任一项所述的方法。

专利专题