一种音频中断方法、装置以及计算机可读存储介质

引用

摘要：

本发明公开了一种音频中断方法、装置以及计算机可读存储介质，包括：获取音频数据的多个特征向量数据；针对多个所述特征向量数据，生成用于表征所述音频数据为特定音频的置信度；根据所生成的置信度，停止当前音频信息的输出。由此，通过利用特征向量数据所生成的置信度来决定停止当前音频信息的输出，不需要通过现有技术中语音识别解码器得到识别结果，大大减少了计算量，进而降低了打断的延迟，提升了用户体验。

专利类型：发明专利

申请/专利号：CN202010739039.0

申请日期：2020-07-28

公开/公告号：CN112053686A

公开/公告日：2020-12-08

主分类号：G10L15/22(2006.01)

申请/专利权人:出门问问信息科技有限公司

发明/设计人:邢安昊;陈晓宇;雷欣;李志飞

主申请人地址:100044 北京市海淀区中关村大街19号办公A楼10层1001

专利代理机构:北京乐知新创知识产权代理事务所(普通合伙)

代理人:张洋

国别省市代码:北京;11

权利要求：

1.一种音频中断方法，其特征在于，所述方法包括：获取音频数据的多个特征向量数据；针对多个所述特征向量数据，生成用于表征所述音频数据为特定音频的置信度；根据所生成的置信度，停止当前音频信息的输出。 2.根据权利要求1所述的方法，其特征在于，所述获取音频数据的多个特征向量数据，包括：流式地提取所述音频数据中多个连续的音频片段数据；分别提取多个所述音频片段数据的特征，生成多个特征向量数据。 3.根据权利要求2所述的方法，其特征在于，所述多个连续的音频片段数据的提取时间间隔相等，并且相邻的音频片段数据之间部分数据重叠。 4.根据权利要求1所述的方法，其特征在于，所述针对多个所述特征向量数据，生成用于表征所述音频数据为特定音频的置信度，包括：针对每一个所述特征向量数据，分别生成用于表征所述特征向量数据为预设分类信息的概率值；根据每一个所述特征向量数据所对应的概率值，生成用于表征所述音频数据为特定音频的置信度。 5.根据权利要求4所述的方法，其特征在于，所述针对每一个所述特征向量数据，分别生成用于表征所述特征向量数据为预设分类信息的概率值，包括：将每个所述特征向量数据分别输入于分类器模型进行训练，分别输出用于表征所述特征向量数据为预设分类信息的概率值。 6.根据权利要求5所述的方法，其特征在于，所述分类器模型为二分类器模型，所述预设分类信息为人声信息。 7.根据权利要求4所述的方法，其特征在于，所述根据每一个所述特征向量数据所对应的概率值，生成用于表征所述音频数据为特定音频的置信度，包括：流式地统计至少部分所述概率值中超过概率阈值的数量；若判定所统计的数量超过指定数量阈值，则根据所参与统计的概率值生成用于表征所述音频数据为特定音频的置信度。 8.根据权利要求7所述的方法，其特征在于，所述根据所参与统计的概率值生成用于表征所述音频数据为特定音频的置信度，包括：选取所参与统计的概率值中超过所述概率阈值的概率值；计算所选取的概率值的几何平均值，生成置信度，计算公式如下：其中，Con表示置信度，M表示超过所述概率阈值的概率值数量，pi表示所述特征向量数据为预设分类信息的概率值,Tp表示概率阈值，Tc表示指定数量阈值。 9.一种音频中断装置，其特征在于，所述装置包括：特征获取模块，用于获取音频数据的多个特征向量数据；置信度生成模块，用于针对多个所述特征向量数据，生成用于表征所述音频数据为特定音频的置信度；置信度执行模块，用于根据所生成的置信度，停止当前音频信息的输出。 10.一种计算机可读存储介质，其特征在于，所述存储介质包括一组计算机可执行指令，当所述指令被执行时用于执行权利要求1-8任一项所述的音频中断方法。

专利专题