一种婴儿哭声的识别方法及系统

引用

摘要：

本发明公开了一种婴儿哭声的识别方法及系统，本发明实施例在识别婴儿哭声时基于声纹识别技术，采用声纹识别技术对从采集的婴儿哭声的提取特征进行声纹识别，确认该婴儿哭声对应的婴儿年龄；再根据婴儿年龄输入到对应的针对不同婴儿年龄建立的哭声类别识别神经网络模型中，得到该婴儿哭声对应的婴儿哭声类别，从而确认婴儿哭声的具体含义，以确定婴儿对应的各种状况。由于本发明实施例在识别婴儿哭声过程中，采用了相结合的声纹识别技术及神经网络技术，所以识别的准确度及精确度比较高，简单且易于执行。

专利类型：发明专利

申请/专利号：CN201910362576.5

申请日期：2019-04-30

公开/公告号：CN111862991A

公开/公告日：2020-10-30

主分类号：G10L17/18(2013.01)

申请/专利权人:杭州海康威视数字技术股份有限公司

发明/设计人:董勤波

主申请人地址:310051 浙江省杭州市滨江区阡陌路555号

专利代理机构:北京德琦知识产权代理有限公司

代理人:牛峥%王丽琴

国别省市代码:浙江;33

权利要求：

1.一种婴儿哭声的识别方法，其特征在于，包括：采集含有婴儿哭声的音频信号；提取所述音频信号的特征；采用声纹识别方式将所述音频信号的特征转换为所述音频的婴儿哭声特征序列；根据设置的不同婴儿哭声特征序列对应婴儿年龄的对应关系，确定所述音频的婴儿哭声特征序列对应的婴儿年龄；将所述音频信号的婴儿哭声特征序列输入到设置的对应所述婴儿年龄的哭声类别识别神经网络模型中，输出所述音频信号的特征对应的婴儿哭声类别。 2.如权利要求1所述的方法，其特征在于，所述采用声纹识别方式将所述音频信号的特征转换为所述音频的婴儿哭声特征序列包括：设置声纹识别神经网络模型，将所述音频信号的特征输入到设置的声纹识别神经网络模型中，输出所述音频的婴儿哭声特征序列。 3.如权利要求1所述的方法，其特征在于，在所述采集含有婴儿哭声的音频信号之前，所述方法包括：计算设定时间段内接收音频信号的平均能量，判断所述接收的音频信号的平均能量是否超过设置的能量阈值，如果是，执行所述采集含有婴儿哭声的音频信号的步骤。 4.如权利要求1所述的方法，其特征在于，所述提取所述音频信号的特征包括：采用梅尔Mel滤波方式提取梅尔频率倒普系数MFCC特征，将MFCC特征作为所述音频信号的特征。 5.如权利要求1所述的方法，其特征在于，所述方法还包括：设置不同婴儿哭声特征序列对应婴儿识别身份的对应关系，确定所述音频的婴儿哭声特征序列对应的婴儿识别身份。 6.如权利要求1所述的方法，其特征在于，所述方法还包括：当未输出所述音频信号的特征对应的婴儿哭声类别时，输出所述音频信号的特征对应的非婴儿哭声类别，或不知含义的哭声类别。 7.如权利要求1所述的方法，其特征在于，所述输出所述音频信号的特征对应婴儿哭声类别包括：获取得到对应婴儿哭声类别的输出概率；将所述对应婴儿哭声类别的输出概率进行平滑处理后，作为所述音频信号的特征对应婴儿哭声类别。 8.一种婴儿哭声的识别系统，其特征在于，包括：信号检测单元、特征提取单元、声纹识别单元，和哭声检测及分类单元，其中，信号检测单元，用于采集含有婴儿哭声的音频信号，提取所述音频信号的特征；声纹识别单元，用于将所述音频信号的特征转换为所述音频的婴儿哭声特征序列，根据设置的不同婴儿哭声特征序列对应婴儿年龄的对应关系，确定所述音频的婴儿哭声特征序列对应的婴儿年龄；哭声检测及分类单元，用于将所述音频信号的婴儿哭声特征序列输入到设置的对应所述婴儿年龄的哭声类别识别神经网络模型中，输出所述音频信号的特征对应婴儿哭声类别。 9.一种非瞬时计算机可读存储介质，所述非瞬时计算机可读存储介质存储指令，其特征在于，所述指令在由处理器执行时使得所述处理器执行如权利要求1至7中任一项所述的婴儿哭声的识别方法的步骤。 10.一种电子设备，其特征在于，包括如权利要求10所述的非瞬时计算机可读存储介质、以及可访问所述非瞬时计算机可读存储介质的所述处理器。

专利专题