拖音的检测方法、装置、设备及存储介质

引用

摘要：

本发明涉及人工智能技术领域，公开了拖音的检测方法、装置、设备及存储介质，用于节省拖音检测的时间，从而提高拖音检测的效率。拖音的检测方法包括：实时获取多段语音数据，并对多段语音数据进行实时采样处理，生成离散语音信号；依次采用活性检测算法和静音抑制算法对离散语音信号进行处理，生成至少一个有声语音片段；结合预置的过零率算法对至少一个有声语音片段进行人声检测，确定至少一个目标人声段；对至少一个目标人声段进行音节检测，生成多个待检测音节；按照预置的发音时长阈值对多个待检测音节进行拖音检测，在多个待检测音节中确定目标拖音音节。此外，本发明还涉及区块链技术，多段语音数据可存储于区块链中。

专利类型：发明专利

申请/专利号：CN202011538711.6

申请日期：2020-12-23

公开/公告号：CN112712823A

公开/公告日：2021-04-27

主分类号：G10L25/51(2013.01)

申请/专利权人:深圳壹账通智能科技有限公司

发明/设计人:蔡壮壮

主申请人地址:518052 广东省深圳市前海深港合作区前湾一路A栋201室

专利代理机构:北京市京大律师事务所

代理人:姚维

国别省市代码:广东;44

权利要求：

1.一种拖音的检测方法，其特征在于，所述拖音的检测方法包括：实时获取多段语音数据，并对所述多段语音数据进行实时采样处理，生成离散语音信号；依次采用活性检测算法和静音抑制算法对所述离散语音信号进行处理，生成至少一个有声语音片段，一个有声语音片段包括多个有声语音子片段；结合预置的过零率算法对所述至少一个有声语音片段进行人声检测，确定至少一个目标人声段；对所述至少一个目标人声段进行音节检测，生成多个待检测音节；按照预置的发音时长阈值对所述多个待检测音节进行拖音检测，在所述多个待检测音节中确定目标拖音音节，所述目标拖音音节为一个或者多个。 2.根据权利要求1所述的拖音的检测方法，其特征在于，所述实时获取多段语音数据，并对所述多段语音数据进行实时采样处理，生成离散语音信号包括：按照预置的采样率实时获取多段语音数据，所述多段语音数据为模拟声波数据；将所述多段语音数据进行实时拼接，生成实时拼接后的语音数据，并将所述实时拼接后的语音数据进行二进制处理，生成离散语音信号，所述离散语音信号为二进制数据。 3.根据权利要求1所述的拖音的检测方法，其特征在于，所述依次采用活性检测算法和静音抑制算法对所述离散语音信号进行处理，生成至少一个有声语音片段，一个有声语音片段包括多个有声语音子片段包括：采用带通滤波器，按照预置的音频频谱将所述离散语音信号的音频分割为多个音频子带；依次通过活性检测算法和静音抑制算法分别对所述多个音频子带进行计算，生成至少一个有声语音片段，一个有声语音片段包括多个有声语音子片段。 4.根据权利要求3所述的拖音的检测方法，其特征在于，所述依次通过活性检测算法和静音抑制算法分别对所述多个音频子带进行计算，生成至少一个有声语音片段，一个有声语音片段包括多个有声语音子片段包括：分别对所述多个音频子带进行特征计算，生成多个子带特征；分别对所述多个子带特征进行子带能量计算，生成多个子带特征量；分别对所述多个子带特征量进行概率密度计算，生成噪声分布概率和语音分布概率；采用活性检测算法基于所述噪声分布概率和所述语音分布概率计算每个子带特征量对应的似然比，生成多个加权对数似然比，所述多个加权对数似然比与所述多个音频子带一一对应；将加权对数似然比小于或者等于似然阈值的音频子带确定为静音信号，采用静音抑制算法对所述静音信号进行抑制，并将加权对数似然比大于似然阈值的音频子带确定为有声语音片段，得到至少一个有声语音片段，一个有声语音片段包括多个有声语音子片段。 5.根据权利要求1所述的拖音的检测方法，其特征在于，所述结合预置的过零率算法对所述至少一个有声语音片段进行人声检测，确定至少一个目标人声段包括：从所述至少一个有声语音片段中提取多个语音音量，并计算所述多个语音音量的平均值，生成语音平均音量，一个有声语音子片段对应一个语音音量；分别将所述多个语音音量进行归一化，生成归一化音量值组，并将所述归一化音量值组中小于归一化阈值的归一化音量值调整为零，生成调整后的归一化音量值组；对所述归一化音量值组按照预置的数量点进行平均值计算，得到多个音量平均值；采用预置的过零率算法对所述多个音量平均值进行过零检查，生成多个非零音量值，并对所述多个非零音量值进行求和计算以及均值计算，生成非零音量总值和非零音量均值；基于所述多个语音平均音量、所述非零音量总值和所述非零音量均值生成灵敏度阈值；将语音音量大于或者等于所述灵敏度阈值的有声语音子片段确定为目标人声段。 6.根据权利要求1所述的拖音的检测方法，其特征在于，所述对所述至少一个目标人声段进行音节检测，生成多个待检测音节包括：从所述至少一个目标人声段中提取多个离散数据绝对值组；在每个离散数据绝对值组中确定最小的离散数据绝对值，得到多个离散数据绝对值；读取相邻两个离散数据绝对值间的离散数据，得到多个离散数据，并分别将所述多个离散数据确定为多个待检测音节。 7.根据权利要求1所述的拖音的检测方法，其特征在于，所述按照预置的发音时长阈值对所述多个待检测音节进行拖音检测，在所述多个待检测音节中确定目标拖音音节，所述目标拖音音节为一个或者多个包括：分别提取所述多个待检测音节的发音时长，得到多个音节发音时长；将音节发音时长大于预置的发音时长阈值的待检测音节确定为目标拖音音节，所述目标拖音音节为一个或者多个。 8.一种拖音的检测装置，其特征在于，所述拖音的检测装置包括：获取模块，用于实时获取多段语音数据，并对所述多段语音数据进行实时采样处理，生成离散语音信号；有声片段生成模块，用于依次采用活性检测算法和静音抑制算法对所述离散语音信号进行处理，生成至少一个有声语音片段，一个有声语音片段包括多个有声语音子片段；人声检测模块，用于结合预置的过零率算法对所述至少一个有声语音片段进行人声检测，确定至少一个目标人声段；音节检测模块，用于对所述至少一个目标人声段进行音节检测，生成多个待检测音节；拖音检测模块，用于按照预置的发音时长阈值对所述多个待检测音节进行拖音检测，在所述多个待检测音节中确定目标拖音音节，所述目标拖音音节为一个或者多个。 9.一种拖音的检测设备，其特征在于，所述拖音的检测设备包括：存储器和至少一个处理器，所述存储器中存储有指令；所述至少一个处理器调用所述存储器中的所述指令，以使得所述拖音的检测设备执行如权利要求1-7中任意一项所述的拖音的检测方法。 10.一种计算机可读存储介质，所述计算机可读存储介质上存储有指令，其特征在于，所述指令被处理器执行时实现如权利要求1-7中任一项所述拖音的检测方法。

专利专题