一种说话人语音分离方法及相关设备
万方数据知识服务平台
应用市场
我的应用
会员HOT
万方专利
×

点击收藏,不怕下次找不到~

@万方数据
会员HOT

专利专题

一种说话人语音分离方法及相关设备

引用
本申请提供了一种说话人语音分离方法及相关设备,可以快速准确的识别多人说话的单通道语音中各个对象的声音,解决了现有的无法对多人说话的单通道语音进行进一步分析的困难。该方法包括:对目标语音按照1s一个片段进行切分,得到第一语音片段集合,所述目标语音为待识别的多对象的单通道语音;根据所述第一语音片段集合确定目标频谱图;将所述目标频谱图输入基于深度学习的语音特征提取模型,得到所述目标语音对应的目标特征向量;对所述目标特征向量进行聚类分析,得到N类特征向量,其中,N为大于或等于1的正整数;根据所述N类特征向量确定N个对象对应的语音。

发明专利

CN202010800575.7

2020-08-11

CN111899755A

2020-11-06

G10L21/0272(2013.01)

华院数据技术(上海)有限公司

张文凯

200000 上海市静安区万荣路1256、1258号9楼

上海京沪专利代理事务所(普通合伙)

马强

上海;31

1.一种说话人语音分离方法,其特征在于,包括: 对目标语音进行切分,得到第一语音片段集合,所述目标语音为待识别的多对象的单通道语音; 根据所述第一语音片段集合确定目标频谱图; 将所述目标频谱图输入基于深度学习的语音特征提取模型,得到所述目标语音对应的目标特征向量; 对所述目标特征向量进行聚类分析,得到N类特征向量,其中,N为大于或等于1的正整数; 根据所述N类特征向量确定N个对象对应的语音。 2.根据权利要求1所述的方法,其特征在于,所述根据所述第一语音片段集合确定目标频谱图包括: 对所述第一语音片段集合进行短时傅里叶变换,得到所述目标频谱图。 3.根据权利要求1所述的方法,其特征在于,所述根据所述N类特征向量确定N个对象对应的语音包括: 确定所述N类特征向量对应的第二语音片段集合; 确定所述第二语音片段集合的每个语音片段的时间属性; 根据所述第二语音片段集合的每个语音片段的时间属性对所述第二语音片段集合中的语音片段进行拼接,得到所述N个对象对应的语音。 4.根据权利要求1所述的方法,其特征在于,所述对所述目标特征向量进行聚类分析,得到N类特征向量包括: 对所述目标特征向量进行聚类,以计算所述目标特征向量中的向量之间的余弦距离; 根据所述目标特征向量中的向量之间的余弦距离确定所述N类特征向量。 5.根据权利要求1至4中任一项所述的方法,其特征在于,所述方法还包括: 获取语音数据集,所述语音数据集中包含M个语音数据,M为大于1的正整数; 对所述语音数据集中的每个语音数据进行切分,得到M个语音片段集合; 通过短时傅里叶变换将所述M个语音片段集合转换为M个频谱图集合; 对所述M个频谱图集合进行模型训练,得到所述基于深度学习的语音特征提取模型。 6.一种说话人语音分离装置,其特征在于,包括: 切分单元,用于对目标语音进行切分,得到第一语音片段集合,所述目标语音为待识别的多对象的单通道语音; 第一确定单元,用于根据所述第一语音片段集合确定目标频谱图; 处理单元,用于将所述目标频谱图输入基于深度学习的语音特征提取模型,得到所述目标语音对应的目标特征向量; 分析单元,用于对所述目标特征向量进行聚类分析,得到N类特征向量,其中,N为大于或等于1的正整数; 第二确定单元,用于根据所述N类特征向量确定N个对象对应的语音。 7.根据权利要求6所述的装置,其特征在于,所述第一确定单元具体用于: 对所述第一语音片段集合进行短时傅里叶变换,得到所述目标频谱图。 8.根据权利要求6所述的装置,其特征在于,所述第二确定单元具体用于: 确定所述N类特征向量对应的第二语音片段集合; 确定所述第二语音片段集合的每个语音片段的时间属性; 根据所述第二语音片段集合的每个语音片段的时间属性对所述第二语音片段集合中的语音片段进行拼接,得到所述N个对象对应的语音。 9.根据权利要求6至8中任一项所述的装置,其特征在于,所述装置还包括: 训练单元,所述训练单元用于: 获取语音数据集,所述语音数据集中包含M个语音数据,M为大于1的正整数; 对所述语音数据集中的每个语音数据进行切分,得到M个语音片段集合; 通过短时傅里叶变换将所述M个语音片段集合转换为M个频谱图集合; 对所述M个频谱图集合进行模型训练,得到所述基于深度学习的语音特征提取模型。 10.一种计算机可读存储介质,其特征在于,包括指令,当所述指令在计算机上运行时,使得计算机执行上述权利要求1至5中任一项所述的说话人语音分离方法的步骤。
相关文献
评论
法律状态详情>>
2020-11-06公开
2020-11-06公开
2020-11-06公开
相关作者
相关机构