语音匹配方法、装置、电子设备及存储介质
本发明实施例提供一种语音匹配方法、装置、电子设备及存储介质,所述方法包括:确定待匹配话单的两个待匹配号码;将待匹配话单中的语音数据的声纹特征分别与两个待匹配号码的声纹特征进行匹配,得到待匹配话单中的语音数据与两个待匹配号码的匹配关系;其中,任一待匹配号码的声纹特征是对该待匹配号码的话单集中每一语音数据的声纹特征进行聚类得到的,该待匹配号码的话单集包括多个以该待匹配号码为一端、不同号码为另一端的话单。本发明实施例提供的方法、装置、电子设备及存储介质,保证了语音数据与其对应主被叫号码的一致性。
发明专利
CN202010826186.1
2020-08-17
CN111968650A
2020-11-20
G10L17/00(2013.01)
科大讯飞股份有限公司
李晋;褚繁;方昕;余青松;柳林;戴礼荣;胡郁
230088 安徽省合肥市高新开发区望江西路666号
北京路浩知识产权代理有限公司
程琛
安徽;34
1.一种语音匹配方法,其特征在于,包括: 确定待匹配话单的两个待匹配号码; 将所述待匹配话单中的语音数据的声纹特征分别与所述两个待匹配号码的声纹特征进行匹配,得到所述待匹配话单中的语音数据与所述两个待匹配号码的匹配关系; 其中,任一待匹配号码的声纹特征是对所述任一待匹配号码的话单集中每一语音数据的声纹特征进行聚类得到的,所述任一待匹配号码的话单集包括多个以所述任一待匹配号码为一端、不同号码为另一端的话单。 2.根据权利要求1所述的语音匹配方法,其特征在于,所述任一待匹配号码的话单集是基于如下步骤确定的: 基于以所述任一待匹配号码为一端的所有话单,或,基于以所述任一待匹配号码为一端且通话时长大于预设时长的所有话单,构建所述任一待匹配号码的候选话单集; 从所述候选话单集中选取多个另一端为不同号码的话单,构建所述任一待匹配号码的话单集。 3.根据权利要求2所述的语音匹配方法,其特征在于,所述从所述候选话单集中选取多个另一端为不同号码的话单,构建所述任一待匹配号码的话单集,具体包括: 选取所述候选话单集中预设数量个产生时间距离所述待匹配话单的产生时间最近且另一端为不同号码的话单,构建所述任一待匹配号码的话单集。 4.根据权利要求1所述的语音匹配方法,其特征在于,所述任一待匹配号码的声纹特征是基于如下步骤确定的: 对所述任一待匹配号码的话单集中每一语音数据的声纹特征进行聚类,得到对应所述任一待匹配号码的聚类结果; 基于对应所述任一待匹配号码的聚类结果中每个簇的质量参数,确定所述任一待匹配号码的声纹特征所属的簇; 基于所述任一待匹配号码的声纹特征所属的簇,确定所述任一待匹配号码的声纹特征。 5.根据权利要求1至4中任一项所述的语音匹配方法,其特征在于,所述语音数据的声纹特征是基于如下步骤确定的: 将所述语音数据输入至声纹提取模型,得到所述声纹提取模型输出的所述语音数据的声纹特征; 所述声纹提取模型用于基于所述语音数据的多个声学特征图确定每一声学特征图的加重系数,基于每一声学特征图的加重系数对每一声学特征图进行加重,基于加重后的每一声学特征图进行声纹特征提取。 6.根据权利要求5所述的语音匹配方法,其特征在于,所述将所述语音数据输入至声纹提取模型,得到所述声纹提取模型输出的所述语音数据的声纹特征,具体包括: 将所述语音数据中每一语谱片段输入至所述声纹提取模型的特征图编码层,得到每一语谱片段的多个初始声学特征图; 将任一语谱片段的多个上一声学特征图输入至所述声纹提取模型的特征图加重层,得到所述特征图加重层输出的所述任一语谱片段的多个当前声学特征图; 将每一语谱片段的多个最终声学特征图输入至所述声纹提取模型的声纹输出层,得到所述声纹输出层输出的所述语音数据的声纹特征。 7.根据权利要求6所述的语音匹配方法,其特征在于,所述将任一语谱片段的多个上一声学特征图输入至所述声纹提取模型的特征图加重层,得到所述特征图加重层输出的所述任一语谱片段的多个当前声学特征图,具体包括: 将任一语谱片段的多个上一声学特征图输入至所述特征图加重层的系数计算层,得到所述系数计算层输出的每一上一声学特征图的加重系数; 将每一上一声学特征图及其对应的加重系数输入至所述特征图加重层的系数加重层,得到所述系数加重层输出的所述任一语谱片段的多个当前声学特征图。 8.根据权利要求5所述的语音匹配方法,其特征在于,所述声纹提取模型是基于包含同一说话人的样本语音数据的第一语音集合以及包含不同说话人的样本语音数据的第二语音集合,和/或,基于标注有说话人标签的样本语音数据并结合说话人识别模型训练得到的; 其中,所述说话人识别模型用于基于所述语音数据的声纹特征进行说话人识别。 9.一种语音匹配装置,其特征在于,包括: 待匹配号码确定单元,用于确定待匹配话单的两个待匹配号码; 语音匹配单元,用于将所述待匹配话单中的语音数据的声纹特征分别与所述两个待匹配号码的声纹特征进行匹配,得到所述待匹配话单中的语音数据与所述两个待匹配号码的匹配关系; 其中,任一待匹配号码的声纹特征是对所述任一待匹配号码的话单集中每一语音数据的声纹特征进行聚类得到的,所述任一待匹配号码的话单集包括多个以所述任一待匹配号码为一端、不同号码为另一端的话单。 10.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至8任一项所述语音匹配方法的步骤。 11.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1至8任一项所述语音匹配方法的步骤。