一种说话人分割方法、装置、设备和存储介质

引用

摘要：

本申请涉及说话人分割方法、装置、设备和存储介质。该方法包括：确定语音信息中待进行说话人分割的语音的长度；比较所述语音的长度与预设阈值之间的大小；基于比较结果对所述语音进行语音段的划分；确定划分后的语音的切分点；基于所述切分点对语音中的说话人进行区分。如此，可提升短语音的切分稳定性，并提高整体语音的切分精度。

专利类型：发明专利

申请/专利号：CN202010621958.8

申请日期：2020-06-30

公开/公告号：CN111681644A

公开/公告日：2020-09-18

主分类号：G10L15/04(2013.01)

申请/专利权人:浙江同花顺智能科技有限公司

发明/设计人:张鹏;胡新辉;徐欣康

主申请人地址:310023 浙江省杭州市余杭区五常街道同顺街18号3楼305室

专利代理机构:北京锺维联合知识产权代理有限公司

代理人:金爱静

国别省市代码:浙江;33

权利要求：

1.一种说话人分割方法，其特征在于，所述方法包括：确定语音信息中待进行说话人分割的语音的长度；比较所述语音的长度与预设阈值之间的大小；基于比较结果对所述语音进行语音段的划分；确定划分后的语音的切分点；基于所述切分点对语音中的说话人进行区分。 2.根据权利要求1所述的方法，其特征在于，所述基于比较结果对所述语音进行语音段的划分，包括：确定所述语音的长度大于等于所述预设阈值时，基于第一组预设步长对所述语音的预设头部和预设尾部进行语音段的划分。 3.根据权利要求2所述的方法，其特征在于，所述基于第一组预设步长对所述语音的预设头部和预设尾部进行语音段的划分，包括：基于多个不同的预设步长分别对所述语音的预设头部进行划分，对应得到不同长度语音段组成的预设头部语音；基于所述多个不同的预设步长分别对所述语音的预设尾部进行划分，对应得到不同长度语音段组成的预设尾部语音；其中，所述预设步长的长度均不大于广义对数似然比GLR距离切分法或贝叶斯信息准则距离切分法中的切分最小阈值。 4.根据权利要求2或3所述的方法，其特征在于，所述确定划分后的语音的切分点，包括：确定语音段划分后的预设头部语音内的切分点；确定语音段划分后的预设尾部语音内的切分点；确定除所述预设头部和预设尾部之外的中间段语音内的切分点。 5.根据权利要求4所述的方法，其特征在于，所述确定语音段划分后的预设头部或预设尾部语音内的切分点，包括：利用GLR距离切分法分别确定基于不同的预设步长进行语音段划分后的预设头部或预设尾部语音内的所有切分点；将确定的所有切分点进行高斯建模，基于预设阈值判断是否存在满足条件的切分点；如果是，则确定满足条件的所述切分点为预设头部或预设尾部语音内的切分点。 6.根据权利要求1所述的方法，其特征在于，所述基于比较结果对所述语音进行语音段的划分，包括：确定所述语音的长度小于所述预设阈值时，基于第二组预设步长对整段所述语音进行语音段的划分。 7.根据权利要求6所述的方法，其特征在于，所述基于第二组预设步长对整段所述语音进行语音段的划分，包括：基于多个不同的预设步长分别对整段所述语音进行划分，对应得到不同长度语音段组成的所述语音；其中，所述预设步长的长度均不大于广义对数似然比GLR距离切分法或贝叶斯信息准则距离切分法中的切分最小阈值；所述预设步长中的最大值为整段所述语音长度的一半。 8.根据权利要求6或7所述的方法，其特征在于，所述确定划分后的语音的切分点，包括：利用GLR距离切分法分别确定基于不同的预设步长进行语音段划分后的整段语音内的所有切分点；将确定的所有切分点进行高斯建模，基于预设阈值判断是否存在满足条件的切分点；如果是，则确定满足条件的所述切分点为所述语音的切分点。 9.一种说话人分割装置，其特征在于，所述装置包括：长度确定模块，用于确定语音信息中待进行说话人分割的语音的长度；比较模块，用于比较所述语音的长度与预设阈值之间的大小；划分模块，用于基于比较结果对所述语音进行语音段的划分；切分点确定模块，用于确定划分后的语音的切分点；并基于所述切分点对语音中的说话人进行区分。 10.一种说话人分割设备，其特征在于，包括：一个或多个处理器；与所述一个或多个处理器通信连接的存储器；一个或多个应用程序，其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序被配置为执行权利要求1至8中任一项所述的方法。 11.一种计算机可读存储介质，其存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1至8中任一项所述的方法。

专利专题