一种基于图像识别的语音混响强度估计方法、装置及存储介质

引用

摘要：

本发明公开了一种基于图像识别的语音混响强度估计方法、装置及存储介质，其通过将混响语音转换为三维语谱图；通过对所述三维语谱图进行图像检测，得到所述混响语音在所述三维语谱图中的拖尾段；计算所述拖尾段的能量强度，并以该能量强度作为混响强度的初始估计值；最后对两个以上拖尾段的初始估计值之间进行平滑处理，得到最终估计值，并将该最终估计值作为所述混响语音的混响强度的度量，从而能够极大的提高混响强度度量的抗干扰性和准确性。

专利类型：发明专利

申请/专利号：CN202010426246.0

申请日期：2020-05-19

公开/公告号：CN111785292A

公开/公告日：2020-10-16

主分类号：G10L21/14(2013.01)

申请/专利权人:厦门快商通科技股份有限公司

发明/设计人:张广学;肖龙源;叶志坚;李稀敏;刘晓葳

主申请人地址:361009 福建省厦门市软件园三期诚毅北大街63号1301单元

专利代理机构:厦门仕诚联合知识产权代理事务所(普通合伙)

代理人:乐珠秀

国别省市代码:福建;35

权利要求：

1.一种基于图像识别的语音混响强度估计方法，其特征在于，包括以下步骤：步骤a，将混响语音转换为三维语谱图；步骤b，通过对所述三维语谱图进行图像检测，得到所述混响语音在所述三维语谱图中的拖尾段；步骤c，计算所述拖尾段的能量强度，并以该能量强度作为混响强度的初始估计值；步骤d，对两个以上拖尾段的初始估计值之间进行平滑处理，得到最终估计值，并将该最终估计值作为所述混响语音的混响强度的度量。 2.根据权利要求1所述的基于图像识别的语音混响强度估计方法，其特征在于：所述的步骤a中，进一步根据语谱能量的强弱对所述三维语谱图进行颜色标记；所述的步骤c中，根据所述颜色标记中的颜色深度来计算所述拖尾段的能量强度。 3.根据权利要求2所述的基于图像识别的语音混响强度估计方法，其特征在于：所述颜色标记，是指语谱能量越强则颜色越深，语谱能量越弱则颜色越浅。 4.根据权利要求1所述的基于图像识别的语音混响强度估计方法，其特征在于：所述的步骤b中，根据所述混响语音的能量损耗规律进行识别所述拖尾段，具体包括： b1.查找预设的时间区间和预设的频率段上的一个以上的频率点； b2.计算所述一个以上的频率点中的振幅最高频率点； b3.移动时间轴，在所述预设的频率段上查找振幅低于所述振幅最高频率点的一个以上的频率点，得到低振幅频率点； b4.判断所述低振幅频率点之间是否符合能量损耗规律，若是，则所述低振幅频率点对应的时间范围判定为混响时间段；所述混响时间段即所述拖尾段。 5.根据权利要求1至4任一项所述的基于图像识别的语音混响强度估计方法，其特征在于：所述的步骤b中，是通过将所述三维语谱图作为神经网络的输入，并通过神经网络的图像检测功能得到所述混响语音在所述三维语谱图中的拖尾段。 6.根据权利要求5所述的基于图像识别的语音混响强度估计方法，其特征在于：所述神经网络采用TDNN神经网络或是CNN神经网络。 7.根据权利要求1所述的基于图像识别的语音混响强度估计方法，其特征在于：所述的步骤d中，是采用log1p函数进行平滑处理；计算方法如下： log1p＝log(x+1)；其中，x为所述拖尾段的初始估计值。 8.一种装置，其特征在于，所述装置包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的基于图像识别的语音混响强度估计程序，所述基于图像识别的语音混响强度估计程序被所述处理器执行时实现如权利要求1至7任一项所述的基于图像识别的语音混响强度估计方法的步骤。 9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有基于图像识别的语音混响强度估计程序，所述基于图像识别的语音混响强度估计程序被处理器执行时实现如权利要求1至7任一项所述的基于图像识别的语音混响强度估计方法的步骤。

专利专题