一种语音记录方法、装置、电子设备及存储介质

引用

摘要：

本申请属于声纹识别领域，公开了一种语音记录方法、装置、电子设备及存储介质，将收录的第一段语音信息的第一声源位置和第一声纹特征进行转译记录至第一发言人的发言内容中，将收录的第二段语音信息与存储的第一声源位置和第一声纹特征进行比对确定对应的声源匹配因子和声纹匹配因子，并输入至预先训练好的联合模型中进行识别判断，确定两段语音是否属于同一个人，若是，记录至同一个人的发言内容中，否则，将第二段语音信息的转译内容记录至新的发言人的发言内容中，并不断重复收录和识别的过程，直至接收到停止语音收录指令。这样，在进行语音记录时能够将语音文本自动记录至对应的发言人的发言内容中，无需人工进行文本划分，方便用户。

专利类型：发明专利

申请/专利号：CN202011576937.5

申请日期：2020-12-28

公开/公告号：CN112767941A

公开/公告日：2021-05-07

主分类号：G10L15/26(2006.01)

申请/专利权人:深圳壹账通智能科技有限公司

发明/设计人:刘微微;赵之砚

主申请人地址:518000 广东省深圳市前海深港合作区前湾一路1号A栋201室(入驻深圳市前海商务秘书有限公司)

专利代理机构:北京中强智尚知识产权代理有限公司

代理人:黄耀威

国别省市代码:广东;44

权利要求：

1.一种语音记录方法，其特征在于，步骤包括：获取第一段语音信息，并确定所述第一段语音信息的第一声源位置和第一声纹特征；将所述第一段语音信息转译为文本内容，添加至第一发言人的发言记录中，将所述第一声源位置、所述第一声纹特征与所述第一发言人关联存储至数据库中；获取第二段语音信息，并确定所述第二段语音信息的第二声源位置和第二声纹特征；将所述第二声源位置与数据库存储的第一声源位置进行比对确定声源匹配因子，以及，将所述第二声纹特征与数据库存储的第一声纹特征进行比对确定声纹匹配因子；将比对后的声源匹配因子和声纹匹配因子输入至联合模型中进行识别判断，输出所述第二段语音信息是否属于第一发言人；如果属于第一发言人，则将所述第二段语音信息转译为文本内容，添加至所述第一发言人的发言记录中；如果不属于第一发言人，则将所述第二段语音信息转译为文本内容，添加至新的发言人的发言记录中，并将所述第二声源位置、第二声纹特征与新的发言人进行关联后存储至数据库中；获取下一段语音信息，并得到对应的声源匹配因子和对应的声纹匹配因子，并将对应的声源匹配因子和对应的声纹匹配因子输入至联合模型进行再次识别判断，直至语音收录结束。 2.根据权利要求1所述的方法，其特征在于，所述联合模型包括输入层、声源判断层、声纹判断层和输出层，所述将比对后的声源匹配因子和声纹匹配因子输入至联合模型中进行识别判断，输出所述第二段语音信息是否属于第一发言人，具体包括：将所述声源匹配因子和所述声纹匹配因子从输入层输入；利用所述声源判断层对所述声源匹配因子进行判断，当所述声源匹配因子≥声源阈值时，确定结果为声源匹配成功并发送至所述输出层，否则确定结果为声源匹配失败并发送至所述输出层；利用所述声纹判断层对所述声纹匹配因子进行判断，当所述声纹匹配因子≥声纹阈值时，确定结果为声纹匹配成功并发送至所述输出层，否则确定结果为声纹匹配失败并发送至所述输出层；当所述输出层接收到所述声源匹配成功和/或所述声纹匹配成功后，确定所述第二段语音信息属于第一发言人并输出，否则输出结果为空。 3.根据权利要求1或2所述的方法，其特征在于，在所述将比对后的声源匹配因子和声纹匹配因子输入至联合模型中进行识别判断，输出所述第二段语音信息是否属于第一发言人之前，所述方法还包括：预先获取多个样本组合，其中，每个样本组合中包含有样本声源匹配因子和样本声纹匹配因子；构建具有初始输入层、初始声源判断层、初始声纹判断层和初始输出层的初始联合模型；为所述初始声源判断层设置声源初始阈值，为所述声纹判断层设置初始声纹阈值；将一个样本组合中的样本声源匹配因子和样本声纹匹配因子通过所述初始输入层进行输入，所述输入层将所述样本声源匹配因子发送至所述初始声源判断层，将所述样本声纹匹配因子发送至所述初始声纹判断层；所述初始声源判断层判断是否所述样本声源匹配因子≥声源初始阈值是则输出样本声源匹配成功发送至所述初始输出层，否则输出样本声源匹配失败发送至所述初始输出层；所述初始声纹判断层判断是否所述样本声纹匹配因子≥声纹初始阈值是则输出样本声纹匹配成功发送至所述初始输出层，否则输出样本声纹匹配失败发送至所述初始输出层；所述初始输出层接收到所述样本声源匹配成功和/或所述样本声纹匹配成功时，输出结果为属于同一个人，并将下一个样本组合输入至初始联合模型进行处理，否则输出结果为空，利用对应处理的样本组合的样本声源匹配因子替换所述声源初始阈值，利用对应处理的样本组合的样本声纹匹配因子替换所述声纹初始阈值，再将下一个样本组合输入至初始联合模型进行训练处理；当所述初始联合模型对所有的样本组合全部训练处理完成后，将所述初始联合模型作为联合模型。 4.根据权利要求3所述的方法，其特征在于，所述预先获取多个样本组合，具体包括：预先获取多个人的样本语音，其中，每个人的样本语音中包含两个样本语音信息；对每个样本语音信息进行声源定位对应得到样本声源位置，以及进行声纹特征处理对应得到样本声纹特征；将同一个样本语音信息的语音样本信息的样本声源位置和样本声纹特征进行关联形成关联样本，将相同人的两个关联样本进行组合；将组合后的两个关联样本中的两个样本声源位置进行比对确定样本声源匹配因子，以及将组合后的两个关联样本中的两个样本声纹特征进行比对确定样本声纹匹配因子；将同一个人的所述样本声源匹配因子和所述样本声纹匹配因子进行关联形成样本组合。 5.根据权利要求3所述的方法，其特征在于，在所述当所述初始联合模型对所有的样本组合全部处理完成后，将所述初始联合模型作为联合模型之后，所述方法还包括：获取预定数量的测试样本组合，其中，每个测试样本组合中包含测试声源匹配因子和测试声纹匹配因子；预先对所述测试样本组合是否属于同一个人进行标记；将预定数量的所述测试样本组合依次输入至联合模型中进行处理；统计输出结果与所述标记相同的测试概率，若所述测试概率≥概率阈值，将所述联合模型作为最终联合模型，若所述测试概率＜概率阈值，重新获取新的样本组合对所述联合模型进行训练处理，直至得到的联合模型的测试概率≥概率阈值，将所述联合模型作为最终联合模型。 6.根据权利要求1所述的方法，其特征在于，所述获取第一段语音信息，并确定所述第一段语音信息的第一声源位置和第一声纹特征，具体包括：根据至少两个收音器采集的第一段语音信息之间的时间差，计算所述第一段语音信息到达所述至少两个收音器的距离差，利用几何算法呢确定第一声源位置；根据所述第一段语音进行傅里叶分析，得到所述第一段语音的语音频谱随时间变化的语谱图形，将所述语谱图形作为第一声纹特征。 7.根据权利要求6所述的方法，其特征在于，所述根据所述第一段语音进行傅里叶分析，得到所述第一段语音的语音频谱随时间变化的语谱图形，将所述语谱图形作为第一声纹特征，具体包括：对所述第一段语音进行分帧得到x(m，n)，对x(m，n)进行傅里叶变换得到X(m，n)，其中，n为帧长，m为帧的个数；计算所述第一段语音的周期图Y(m，n)，Y(m，n)＝X(m，n)*X(m，n)’，计算Z(m，n)＝10*log10(Y(m，n))，并根据Z(m，n)绘制语谱图形，将所述语谱图形作为第一声纹特征。 8.一种语音记录装置，其特征在于，所述装置包括：语音获取模块，用于获取第一段语音信息，并确定所述第一段语音信息的第一声源位置和第一声纹特征；转译存储模块，用于将所述第一段语音信息转译为文本内容，添加至第一发言人的发言记录中，将所述第一声源位置、所述第一声纹特征与所述第一发言人关联存储至数据库中；所述语音获取模块，还用于获取第二段语音信息，并确定所述第二段语音信息的第二声源位置和第二声纹特征；比对模块，用于将所述第二声源位置与数据库存储的第一发言人的存储声源位置进行比对确定声源匹配因子，以及，将所述第二声纹特征分别与数据库存储的第一发言人的存储声纹特征进行比对确定声纹匹配因子；模型识别模块，用于将比对后的声源匹配因子和声纹匹配因子输入至联合模型中进行识别判断，输出所述第二段语音信息是否属于第一发言人；所述转译存储模块，还用于如果属于第一发言人，则将所述第二段语音信息转译为文本内容，添加至所述第一发言人的发言记录中；如果不属于第一发言人，则将所述第二段语音信息转译为文本内容，添加至新的发言人的发言记录中，并将所述第二声源位置、第二声纹特征与新的发言人进行关联后存储至数据库中；重复模块，用于获取下一段语音信息，并得到对应的声源匹配因子和对应的声纹匹配因子，并将对应的声源匹配因子和对应的声纹匹配因子输入至联合模型进行再次识别判断，直至语音收录结束。 9.一种电子设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的语音记录方法的步骤。 10.一种存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的语音记录方法的步骤。

专利专题