声音识别方法、装置、计算机装置及存储介质

引用

摘要：

本发明提供一种声音识别方法、声音识别装置、计算机装置及计算机可读存储介质，所述方法包括：获取原始音频信息后，将所述音频信息转换成数字化的时频图；对所述时频图进行压缩分段整理后得到所述时频图对应的声音图像；使用图像识别的方法识别所述声音图像，得到图像信息增强后的声音图像，在预设数据库中查找与图像信息增强后的声音图像对应的声音信息。本发明声音识别方法使得声音信息在转换成图像的过程中，图像信息的损失降低，提高声音识别的转换率，从而提高了声音识别的准确率。

专利类型：发明专利

申请/专利号：CN201910197137.3

申请日期：2019-03-14

公开/公告号：CN111768799A

公开/公告日：2020-10-13

主分类号：G10L21/10(2013.01)

申请/专利权人:富泰华工业(深圳)有限公司

发明/设计人:林忠亿

主申请人地址:518109 广东省深圳市龙华新区观澜街道大三社区富士康观澜科技园B区厂房4栋、6栋、7栋、13栋(Ⅰ段)

专利代理机构:深圳市赛恩倍吉知识产权代理有限公司

代理人:刘永辉%饶智彬

国别省市代码:广东;44

权利要求：

1.一种声音识别方法，其特征在于，所述方法包括：获取原始音频信息后，将所述音频信息转换成数字化的时频图；对所述时频图进行压缩分段整理后得到所述时频图对应的声音图像；使用图像识别的方法识别所述声音图像，得到图像信息增强后的声音图像，在预设数据库中查找与图像信息增强后的声音图像对应的声音信息。 2.如权利要求1所述的声音识别方法，其特征在于，所述获取原始音频信息后，将所述音频信息转换成数字化的时频图的方法为：获取音频信息后，将所述音频信息进行取样得到数字声音文件，再经过傅里叶变换得到声音信号时频图。 3.如权利要求1所述的声音识别方法，其特征在于，对所述时频图进行压缩分段整理的方法包括：获取声音信号时频图后，截取预设频率范围和预设时间范围内的时频图，获取时频图上不同频率对应的声音强度信息，将不同频率对应的声音强度信息进行数据整理，将整理后的声音强度为向量元素组成一个一维向量，所述一维向量的长度与所述预设频率范围相同；将所述一维向量以预设间隔进行切分，得到多段一维向量；将切分后的所有一维向量组合为一个二维向量，将所述二维向量组成的二维矩阵用图像表示；判断所述图像大小是否和预设图像大小一致，如果一致则使用图像识别方法进行识别，如果不一致，则通过补白的方式将所述图像补成与预设图像相同的大小。 4.如权利要求3所述的声音识别方法，其特征在于，所述预设频率范围与所述预设图像大小以及人耳能辨别的声音频率范围相关，预设频率范围为F，所述预设图像大小为L×L，人耳能辨别的声音频率的最大值为20000Hz，最小值为20Hz，所述预设频率范围的计算方程为：其中人耳所能感觉到的声音范围为人耳能辨别的声音频率的最大值减去最小值，若人耳能感觉到的声音范围除以图像尺寸L不能整除，则取商的整数部分加1。 5.如权利要求3所述的声音识别方法，其特征在于，所述将不同频率对应的声音强度信息进行数据整理的方法为：将相同频率上的声音强度进行统计学整理，使用的统计学整理的方法包括算数平均数、加权平均、取最大值的方法中的任一方法。 6.如权利要求3所述的声音识别方法，其特征在于，通过补白的方式将所述图像补成与预设图像相同的大小的方法为：所述图像为由声音强度为元素组成的二维矩阵，所述矩阵的大小为N×L，所述预设图像的大小为L×L，若N和L不相等，则将所述矩阵扩充成L×L大小的矩阵，扩充后矩阵中的空白元素用0补齐。 7.如权利要求1所述的声音识别方法，其特征在于，所述使用图像识别的方法识别所述声音图像，在预设数据库中查找与图像信息增强后的声音图像对应的声音信息包括：所述图像识别方法为卷积神经网络识别方法；将所述声音图像导入卷积神经网络经过卷积层、池化层和全连接层的处理后，得到图像信息增强后的声音图像；将增强后的声音图像与预设数据库中的图像进行比对，所述预设数据库中的每张图像信息都代表一种声音；通过与预设数据库中的图像进行比对得到所述声音图像对应的声音信息。 8.一种声音识别装置，其特征在于，所述装置包括：声音获取模块：获取原始音频信息后，将所述音频信息转换成数字化的时频图；声音处理模块：对所述时频图进行压缩分段整理后得到所述时频图对应的声音图像；声音识别模块：使用图像识别的方法识别所述声音图像，得到图像信息增强后的声音图像，在预设数据库中查找与图像信息增强后的声音图像对应的声音信息。 9.一种计算机装置，其特征在于：所述计算机装置包括处理器，所述处理器用于执行存储器中存储的计算机程序时实现如权利要求1-7中任一项所述的声音识别方法。 10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于：所述计算机程序被处理器执行时实现如权利要求1-7中任一项所述的声音识别方法。

专利专题